DoRA（Weight-Decomposed Low-Rank Adaptation）：解耦权重幅度与方向提升微调稳定性 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，没问题。

DoRA：解耦权重幅度与方向提升微调稳定性

大家好，今天我们来聊聊一个最近在模型微调领域备受关注的技术——DoRA，全称Weight-Decomposed Low-Rank Adaptation，即权重解耦低秩适应。

在深入DoRA之前，我们先回顾一下模型微调的一些背景知识，以及它试图解决的问题。

背景：模型微调的挑战

模型微调，尤其是针对大型预训练模型（如LLM），已经成为一个非常流行的技术。通过微调，我们可以让一个通用模型快速适应特定任务，而无需从头训练。然而，微调并非总是那么顺利，它面临着一些挑战：

灾难性遗忘 (Catastrophic Forgetting)：微调过程中，模型可能会忘记在预训练阶段学到的知识，导致在新任务上表现良好，但在原始任务上表现下降。
训练不稳定：微调过程可能非常敏感，超参数的选择、训练数据的分布等都可能影响最终模型的性能，甚至导致训练崩溃。
资源消耗大：全量微调需要更新模型的所有参数，这对于大型模型来说，计算和存储成本都非常高昂。

为了解决这些问题，研究人员提出了各种参数高效微调方法，如LoRA (Low-Rank Adaptation)。

LoRA：低秩适应的优雅解决方案

LoRA的核心思想是，在预训练模型的权重矩阵旁边，增加两个低秩矩阵A和B，并在训练过程中只更新这两个矩阵。这样可以大大减少需要训练的参数量，从而降低计算成本和存储需求。

假设原始权重矩阵为W，形状为(d, k)，LoRA引入两个低秩矩阵A(d, r)和B(r, k)，其中r << min(d, k)。微调时，我们只更新A和B，并将它们的乘积加到原始权重上：

W’ = W + BA

LoRA在许多任务上都取得了不错的表现，但它仍然存在一些局限性。

DoRA：更进一步的解耦

DoRA可以看作是LoRA的改进版本。它更加细致地考虑了权重矩阵的更新方式，将权重更新分解为幅度 (magnitude) 和方向 (direction) 两部分。

DoRA的核心思想

DoRA认为，在微调过程中，权重矩阵的更新主要涉及到两个方面：

方向 (Direction)：权重更新的方向决定了模型学习到的新特征。
幅度 (Magnitude)：权重更新的幅度决定了新特征的强度。

DoRA将这两个方面解耦开来，分别进行处理，从而可以更精细地控制模型的微调过程。

DoRA的实现方式

DoRA的具体实现方式如下：

权重分解：对于原始权重矩阵W，将其分解为两个部分：
- 幅度 (Magnitude)：V，一个标量，表示权重矩阵的整体幅度。
- 方向 (Direction)：W_direction，一个归一化后的矩阵，表示权重矩阵的方向。
  V = ||W||
  W_direction = W / V
低秩更新：对权重矩阵的方向部分W_direction进行LoRA更新，即引入低秩矩阵A和B，并更新它们：

W’_direction = W_direction + BA
权重重构：将更新后的方向和原始幅度重新组合，得到最终的权重矩阵：

W’ = V W’_direction = V (W_direction + BA)

DoRA的优势

相比于LoRA，DoRA具有以下优势：

更好的训练稳定性：通过解耦幅度和方向，DoRA可以更稳定地控制权重更新，降低训练过程中的震荡。
更高的性能：在一些任务上，DoRA可以取得比LoRA更好的性能。
更强的可解释性：通过观察幅度和方向的变化，我们可以更好地理解模型在微调过程中学习到了什么。

代码实现 (PyTorch)

下面是一个简单的DoRA在PyTorch中的实现示例：

import torch
import torch.nn as nn
import torch.nn.functional as F

class DoRALinear(nn.Module):
    def __init__(self, in_features, out_features, r=8):
        super().__init__()
        self.W = nn.Linear(in_features, out_features, bias=False)
        self.V = nn.Parameter(torch.ones(1)) # Magnitude
        self.W_direction = self.W.weight # Direction，注意这里直接用原始权重初始化，实际应用中需要先归一化
        self.lora_A = nn.Linear(in_features, r, bias=False)
        self.lora_B = nn.Linear(r, out_features, bias=False)
        self.scaling = r**-0.5

        # 冻结原始权重
        self.W.weight.requires_grad = False

    def forward(self, x):
        W_direction_updated = self.W_direction + self.lora_B(self.lora_A(x)) * self.scaling
        return F.linear(x, self.V * W_direction_updated, None) # bias is None because original Linear has bias=False

# 使用示例
in_features = 768
out_features = 768
dora_layer = DoRALinear(in_features, out_features, r=8)

# 打印可训练参数，应该只有lora_A, lora_B 和 V
for name, param in dora_layer.named_parameters():
    if param.requires_grad:
        print(name)

# 测试前向传播
batch_size = 32
input_tensor = torch.randn(batch_size, in_features)
output_tensor = dora_layer(input_tensor)
print(output_tensor.shape) # 应该输出 torch.Size([32, 768])

class DoRAEmbedding(nn.Module):
    def __init__(self, num_embeddings, embedding_dim, r=8):
        super().__init__()
        self.embedding = nn.Embedding(num_embeddings, embedding_dim)
        self.V = nn.Parameter(torch.ones(1))
        self.W_direction = self.embedding.weight
        self.lora_A = nn.Embedding(num_embeddings, r)
        self.lora_B = nn.Linear(r, embedding_dim, bias=False)
        self.scaling = r**-0.5

        self.embedding.weight.requires_grad = False

    def forward(self, x):
        W_direction_updated = self.W_direction + self.lora_B(self.lora_A(x)) * self.scaling
        return F.embedding(x, self.V * W_direction_updated)

# 使用示例
num_embeddings = 10000
embedding_dim = 768
dora_embedding = DoRAEmbedding(num_embeddings, embedding_dim, r=8)

# 打印可训练参数，应该只有lora_A, lora_B 和 V
for name, param in dora_embedding.named_parameters():
    if param.requires_grad:
        print(name)

# 测试前向传播
batch_size = 32
seq_len = 64
input_tensor = torch.randint(0, num_embeddings, (batch_size, seq_len))
output_tensor = dora_embedding(input_tensor)
print(output_tensor.shape) # 应该输出 torch.Size([32, 64, 768])

代码解释：

DoRALinear 类实现了DoRA的线性层。
- W 是原始的线性层，其权重被冻结。
- V 是一个可学习的标量，表示权重矩阵的幅度。
- W_direction 是权重矩阵的方向，初始化为原始权重。
- lora_A 和 lora_B 是低秩矩阵，用于更新权重矩阵的方向。
- forward 函数计算前向传播，首先更新权重矩阵的方向，然后将其与幅度相乘，最后进行线性变换。
DoRAEmbedding 类实现了DoRA的Embedding层。
- 与DoRALinear类似，实现了DoRA的Embedding层的逻辑。
代码中使用了requires_grad = False来冻结原始权重，只训练低秩矩阵和幅度。
scaling 因子用于控制低秩矩阵的更新幅度，通常设置为 r**-0.5。

更细致的实现细节和注意事项

权重归一化: 上面的代码为了简洁，省略了W_direction的归一化步骤。在实际应用中，需要在初始化时对W_direction进行归一化，确保其为单位向量。这可以通过以下方式实现：
```
self.W_direction = nn.Parameter(self.W.weight / torch.norm(self.W.weight))
```
并且，在每次更新W_direction后，最好也进行一次归一化，以防止数值不稳定。虽然这会增加计算量，但可以提高训练的稳定性。
初始化策略: 低秩矩阵A和B的初始化策略也很重要。通常使用Kaiming He初始化或者Xavier初始化。例如：
```
nn.init.kaiming_uniform_(self.lora_A.weight, a=math.sqrt(5))
nn.init.zeros_(self.lora_B.weight)
```
幅度初始化: 幅度V的初始化也很重要。如果初始化为0，可能会导致训练初期梯度消失。因此，最好将其初始化为一个接近1的值。
Bias的考虑: 上面的例子中，为了简化，移除了Bias。如果原始的线性层有Bias，那么在DoRA中，也应该考虑如何处理Bias。一种简单的做法是直接保持Bias不变，不进行更新。另一种做法是对Bias也进行DoRA更新。
Scaling Factor的选择: scaling 因子 r**-0.5 是一个常用的选择，但并非总是最佳选择。可以尝试不同的 scaling 因子，以找到最适合特定任务的值。
与其他技术的结合: DoRA可以与其他参数高效微调技术结合使用，例如Prefix-Tuning、Adapter等。

实验结果分析

DoRA在多个任务上都取得了不错的表现。例如，在文本分类任务上，DoRA可以取得比LoRA更高的准确率，并且训练更加稳定。此外，DoRA还可以应用于图像分类、目标检测等任务。

DoRA的变体和扩展

除了上面介绍的基本DoRA之外，还有一些DoRA的变体和扩展：

Adaptive DoRA: 在Adaptive DoRA中，幅度和方向的更新幅度会根据任务的特点进行自适应调整。
DoRA with Sparsity: 在DoRA with Sparsity中，会对低秩矩阵A和B进行稀疏化，以进一步减少参数量。
Quantized DoRA: 在Quantized DoRA中，会对幅度和方向进行量化，以降低存储成本。

与其他参数高效微调技术的对比

技术	核心思想	优点	缺点
LoRA	在原始权重旁边添加低秩矩阵，只更新低秩矩阵。	参数量少，训练速度快，易于实现。	可能会损失一定的性能。
DoRA	解耦权重幅度与方向，分别进行处理。	训练更稳定，性能更高，可解释性更强。	实现更复杂，计算量略有增加。
Adapter	在模型中插入小的Adapter模块，只训练Adapter。	模块化，易于扩展，可以应用于不同的模型结构。	可能会引入额外的延迟。
Prefix-Tuning	在输入序列前添加可学习的前缀，只更新前缀。	简单有效，可以应用于不同的生成任务。	对于长序列，可能会导致梯度消失。
IA3	通过缩放激活值进行微调。	极少的参数量，实现简单。	效果可能不如LoRA和DoRA。

DoRA的应用场景

DoRA可以应用于各种需要模型微调的场景，例如：

自然语言处理 (NLP)：文本分类、情感分析、机器翻译、文本生成等。
计算机视觉 (CV)：图像分类、目标检测、图像分割等。
语音识别 (ASR)：语音转文本、语音情感识别等。
推荐系统 (RS)：个性化推荐、用户行为预测等。

未来研究方向

DoRA作为一个新兴的技术，还有很多值得研究的方向：

自适应幅度调整策略：如何根据任务的特点自适应地调整幅度的更新幅度？
更高效的低秩矩阵分解方法：是否存在更高效的低秩矩阵分解方法，可以进一步降低计算成本？
DoRA与其他技术的结合：如何将DoRA与其他参数高效微调技术结合使用，以取得更好的效果？
DoRA在不同领域的应用：如何将DoRA应用于更多的领域，例如强化学习、图神经网络等？

DoRA：解耦权重，更稳定的微调

今天我们深入探讨了DoRA，一种通过解耦权重幅度和方向来提升微调稳定性的技术。我们学习了其核心思想、实现方式、优势、代码示例以及应用场景。希望这次讲座能够帮助大家更好地理解和应用DoRA。

DoRA的潜力与展望

DoRA作为一种新型的参数高效微调技术，具有很大的潜力。它不仅可以提高模型的性能，还可以降低训练成本，并提高训练稳定性。随着研究的不断深入，相信DoRA将在未来发挥越来越重要的作用。

参数高效微调的未来

参数高效微调是当前模型微调领域的一个重要趋势。DoRA只是其中的一种方法，未来还会有更多更优秀的技术涌现。我们应该保持开放的心态，积极学习和探索新的技术，为人工智能的发展贡献自己的力量。

DoRA：解耦权重幅度与方向提升微调稳定性

发表回复 取消回复

发表回复取消回复