representation - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Matryoshka Representation Learning：训练可变维度嵌入以适应不同存储需求各位同学，大家好！今天我们来深入探讨一个在嵌入模型领域颇具创新性的技术——Matryoshka Representation Learning (MRL)。它解决了一个现实问题：如何在保证模型性能的前提下，根据不同的存储和计算资源限制，灵活调整嵌入向量的维度。 1. 嵌入模型与维度困境嵌入模型，例如Word2Vec、GloVe、BERT等，已经成为自然语言处理 (NLP) 和其他机器学习任务中不可或缺的工具。它们将离散的符号 (例如单词、图像、用户) 映射到连续的向量空间，从而使得相似的符号在向量空间中彼此靠近。这些嵌入向量捕捉了符号之间的语义和关系，为下游任务提供了强大的特征表示。然而，这些模型的嵌入向量通常具有固定的维度。高维嵌入可以更好地捕捉复杂的语义信息，从而提高模型性能。但高维嵌入也带来了两个主要挑战：存储成本：存储大量高维嵌入向量需要大量的内存空间，这在资源受限的设备上 (例如移动设备、嵌入式系统) 是一个严重的限制。计算成本：在下游任务中使用高维嵌入向量进 …

继续阅读“Embedding模型的Matryoshka Representation Learning：训练可变维度嵌入以适应不同存储需求”

ReFT：表征微调，超越LoRA的高效微调技术大家好，今天我们来深入探讨一种新兴的参数高效微调（PEFT）技术：Representation Finetuning，简称ReFT。随着深度学习模型规模的爆炸式增长，全参数微调变得越来越不现实，PEFT应运而生。ReFT作为PEFT家族的新成员，凭借其在中间层表征上的巧妙干预，展现了超越LoRA等主流PEFT技术的潜力。 1. 参数高效微调的必要性在深入ReFT之前，我们首先要理解参数高效微调的重要性。预训练语言模型（PLM）如BERT、GPT系列等，在大量数据上训练后，具备了强大的通用知识和语言理解能力。然而，要将这些PLM应用到特定的下游任务中，通常需要进行微调。全参数微调虽然效果最好，但需要更新模型的所有参数，这对于大型模型来说，计算成本和存储成本都非常高昂。此外，全参数微调还可能导致灾难性遗忘，即模型在适应新任务的同时，忘记了预训练阶段学到的知识。参数高效微调（PEFT）通过只微调模型的一小部分参数，或者引入少量额外参数，来解决这些问题。PEFT方法降低了计算成本和存储成本，同时减轻了灾难性遗忘的风险。常见的PEFT方法 …

继续阅读“ReFT（Representation Finetuning）：通过干预中间层表征实现比LoRA更高效的微调”