DoRA(Weight-Decomposed Low-Rank Adaptation):解耦权重幅度与方向提升微调稳定性

好的,没问题。 DoRA:解耦权重幅度与方向提升微调稳定性 大家好,今天我们来聊聊一个最近在模型微调领域备受关注的技术——DoRA,全称Weight-Decomposed Low-Rank Adaptation,即权重解耦低秩适应。 在深入DoRA之前,我们先回顾一下模型微调的一些背景知识,以及它试图解决的问题。 背景:模型微调的挑战 模型微调,尤其是针对大型预训练模型(如LLM),已经成为一个非常流行的技术。通过微调,我们可以让一个通用模型快速适应特定任务,而无需从头训练。然而,微调并非总是那么顺利,它面临着一些挑战: 灾难性遗忘 (Catastrophic Forgetting):微调过程中,模型可能会忘记在预训练阶段学到的知识,导致在新任务上表现良好,但在原始任务上表现下降。 训练不稳定:微调过程可能非常敏感,超参数的选择、训练数据的分布等都可能影响最终模型的性能,甚至导致训练崩溃。 资源消耗大:全量微调需要更新模型的所有参数,这对于大型模型来说,计算和存储成本都非常高昂。 为了解决这些问题,研究人员提出了各种参数高效微调方法,如LoRA (Low-Rank Adaptation …