lora - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

LoRA适配器的合并冲突：不同任务LoRA合并时的权重干扰与TIES-Merging解决方法

LoRA适配器的合并冲突：不同任务LoRA合并时的权重干扰与TIES-Merging解决方法大家好，今天我们来深入探讨一个在大型语言模型（LLM）微调领域中日益重要的主题：LoRA适配器的合并，以及由此产生的权重干扰问题，并重点介绍一种有效的解决方案——TIES-Merging。 1. LoRA适配器的基本原理在深入讨论合并冲突之前，我们先简单回顾一下LoRA（Low-Rank Adaptation）的核心思想。LoRA通过引入少量可训练的参数来适应下游任务，而无需修改预训练模型本身的大部分权重。具体来说，LoRA会在预训练模型的特定层（例如Transformer的注意力机制或MLP层）旁边添加两个低秩矩阵A和B，其维度分别为rxd和dxr，其中r << d，d是原始权重的维度。在训练过程中，我们只更新A和B的权重，而原始预训练模型的权重保持不变。前向传播时，LoRA的输出会与原始模型的输出相加，如下所示： h = Wx + BAx 其中，W是原始预训练模型的权重，x是输入，h是最终的输出。代码示例（PyTorch）： import torch import tor …

继续阅读“LoRA适配器的合并冲突：不同任务LoRA合并时的权重干扰与TIES-Merging解决方法”

2025年11月22日

S-LoRA服务系统：在多租户推理服务中实现成百上千个适配器的零开销切换

S-LoRA 服务系统：在多租户推理服务中实现成百上千个适配器的零开销切换大家好，今天我们来深入探讨一个在多租户大型语言模型（LLM）推理服务中至关重要的技术：S-LoRA。随着LLM的普及，越来越多的应用场景需要定制化的模型行为。一种常见的做法是使用LoRA（Low-Rank Adaptation）等参数高效微调技术，为每个租户或任务创建独立的适配器。然而，当适配器的数量增长到数百甚至数千时，传统的加载和切换适配器的方式会带来显著的性能开销，严重影响服务的吞吐量和延迟。S-LoRA的出现，正是为了解决这个问题，它能够在多租户环境中实现成百上千个适配器的零开销切换，极大地提升推理服务的效率。 1. LoRA 的简要回顾在深入S-LoRA之前，我们先简单回顾一下LoRA的核心思想。LoRA 是一种参数高效的微调技术，它通过引入少量可训练的参数来适应预训练模型，而无需修改或训练原始模型的所有参数。具体来说，LoRA 为预训练模型中的某些线性层添加了并行的低秩矩阵（A 和 B），在训练过程中只更新这些低秩矩阵的参数，而保持预训练模型的参数不变。公式表达如下： h = Wx + BAx …

继续阅读“S-LoRA服务系统：在多租户推理服务中实现成百上千个适配器的零开销切换”

2025年11月22日

LoftQ初始化：结合量化与LoRA初始化减少低比特微调中的精度损失

LoftQ初始化：量化与LoRA结合，减少低比特微调精度损失各位同学，大家好！今天我们要深入探讨一个在低比特微调领域非常热门且实用的技术——LoftQ初始化。在深度学习模型越来越大的背景下，如何高效地进行模型微调成为了一个重要的研究方向。低比特量化和LoRA（Low-Rank Adaptation）是两种常用的技术，分别从模型大小和参数更新的角度来降低微调的计算成本。然而，单独使用它们往往会带来精度损失。LoftQ初始化正是为了解决这个问题而提出的，它巧妙地结合了量化和LoRA，能够在保证效率的同时，尽可能地减少精度损失。一、背景知识回顾：量化与LoRA 在深入了解LoftQ初始化之前，我们先简单回顾一下量化和LoRA的基本原理。 1.1 量化（Quantization）量化是一种将模型参数从高精度（如FP32）转换为低精度（如INT8）的技术。通过减少表示每个参数所需的比特数，量化可以显著降低模型的大小，提高推理速度，并降低内存占用。原理：量化的核心在于将连续的浮点数值映射到离散的整数值。这个映射过程需要确定一个缩放因子（Scale）和一个零点（Zero Point）。缩 …

继续阅读“LoftQ初始化：结合量化与LoRA初始化减少低比特微调中的精度损失”

2025年11月22日

LoRA+算法：通过设置不同的学习率比例（Ratio）优化适配器矩阵A与B的收敛速度

LoRA+：差异化学习率加速适配器矩阵收敛大家好，今天我们来深入探讨LoRA（Low-Rank Adaptation）及其改进版本LoRA+。LoRA作为一种参数高效的微调方法，在大型语言模型（LLM）时代备受关注。而LoRA+则通过巧妙地调整学习率比例，进一步优化了LoRA适配器矩阵的训练过程。本次讲座将详细介绍LoRA的原理，LoRA+的改进思路，并结合代码示例，展示如何在实践中应用LoRA+来提升微调效率。 1. LoRA：低秩适应的原理与应用 LoRA的核心思想是在预训练模型的基础上，引入低秩矩阵来近似模型的权重更新。具体来说，对于预训练模型的权重矩阵 $W_0 in mathbb{R}^{d times k}$，LoRA不是直接更新 $W_0$，而是引入两个低秩矩阵 $A in mathbb{R}^{d times r}$ 和 $B in mathbb{R}^{r times k}$，其中 $r ll min(d, k)$。训练过程中，只训练 $A$ 和 $B$，而 $W_0$ 保持不变。更新后的权重矩阵为： $W = W_0 + BA$ 其中，$BA$ 构成了对原始权重矩 …

继续阅读“LoRA+算法：通过设置不同的学习率比例（Ratio）优化适配器矩阵A与B的收敛速度”

2025年11月22日

端侧LoRA热切换：在不重新加载基座模型的情况下毫秒级切换不同功能适配器

端侧LoRA热切换：毫秒级功能适配器切换的技术实践各位朋友，大家好。今天我们来深入探讨一个在端侧大模型应用中非常重要的技术：端侧LoRA热切换。它的核心目标是在不需要重新加载基座模型的情况下，实现毫秒级的不同功能适配器切换，从而极大地提升端侧模型的灵活性和效率。 1. 背景与挑战随着大模型技术的快速发展，越来越多的应用场景需要在端侧部署大模型。然而，端侧资源通常有限，完整的大模型往往难以直接部署。即使成功部署，针对不同任务进行微调也需要消耗大量的资源和时间。LoRA (Low-Rank Adaptation) 作为一种高效的微调方法，通过引入少量可训练参数来适配特定任务，受到了广泛关注。但是，在实际应用中，我们可能需要根据不同的用户需求或场景快速切换不同的 LoRA 适配器。例如，一个智能助手可能需要根据用户指令在问答模式、翻译模式和生成模式之间切换。如果每次切换都需要重新加载整个基座模型和 LoRA 适配器，那么响应时间将会非常长，用户体验也会大打折扣。因此，如何在端侧实现 LoRA 适配器的快速切换，避免重新加载基座模型，成为一个关键的技术挑战。 2. LoRA 原理回顾 …

继续阅读“端侧LoRA热切换：在不重新加载基座模型的情况下毫秒级切换不同功能适配器”

2025年11月22日

S-LoRA：在多租户服务中实现成百上千个LoRA适配器的可扩展服务架构

S-LoRA：在多租户服务中实现成百上千个LoRA适配器的可扩展服务架构大家好！今天我们来深入探讨一个非常有趣且极具挑战性的主题：如何在多租户环境中实现成百上千个LoRA（Low-Rank Adaptation）适配器的可扩展服务架构，即 S-LoRA。 LoRA 作为一种高效的参数高效微调方法，已经广泛应用于各种预训练语言模型（PLM）的定制化场景。然而，当我们需要在多租户环境下为每个租户提供独立的 LoRA 模型时，传统的服务架构会面临诸多挑战，例如内存占用过高、模型切换延迟大、资源利用率低等。S-LoRA 的出现正是为了解决这些问题，它通过一系列巧妙的设计，实现了 LoRA 模型的高效共享和动态切换，从而构建一个可扩展的多租户服务架构。 LoRA 的基本原理回顾在深入 S-LoRA 之前，我们先简单回顾一下 LoRA 的基本原理。LoRA 的核心思想是在预训练模型的基础上，引入少量的可训练参数，这些参数通常以低秩矩阵的形式存在。在微调过程中，我们只更新这些低秩矩阵，而冻结预训练模型的原始参数。具体来说，对于预训练模型的某个权重矩阵 W0，LoRA 会引入两个低秩矩阵 A 和 …

继续阅读“S-LoRA：在多租户服务中实现成百上千个LoRA适配器的可扩展服务架构”

2025年11月22日

LoRA的秩（Rank）选择策略：为什么低秩矩阵在特定任务中能捕获全量微调的效果

LoRA 的秩（Rank）选择策略：低秩矩阵为何能捕获全量微调的效果各位来宾，大家好！今天我们来深入探讨一个在大型语言模型（LLM）微调领域非常重要的技术——LoRA (Low-Rank Adaptation)。LoRA 允许我们在资源有限的情况下，高效地微调预训练模型，并且常常令人惊讶的是，即使使用低秩矩阵，也能获得接近甚至媲美全量微调的效果。那么，这背后的原理是什么？我们该如何选择合适的秩（Rank）？这就是今天我们要探讨的核心问题。 1. 预训练模型的内在维度与冗余性首先，我们需要理解预训练模型的一些关键特性。大型预训练模型，比如 BERT、GPT 等，通常参数量巨大，动辄数十亿甚至数千亿。这些模型经过大规模语料的训练，学习到了极其丰富的知识和语言模式。然而，一个重要的观察是，这些模型通常具有很高的冗余性。这意味着什么？这意味着，模型中很多参数实际上对于特定任务来说并非至关重要。模型的参数空间存在一个“有效维度”，这个有效维度远小于模型的实际维度（参数数量）。换句话说，模型学习到的知识可以用一个相对低维的子空间来表示。类比一下，假设你有一张高清图片，像素非常高。但如果你只 …

继续阅读“LoRA的秩（Rank）选择策略：为什么低秩矩阵在特定任务中能捕获全量微调的效果”