YaRN(Yet another RoPE extension):利用温度缩放修正熵变实现长上下文微调

YaRN:利用温度缩放修正熵变实现长上下文微调 大家好,今天我们来深入探讨一个在长上下文语言模型微调中非常重要的技术——YaRN(Yet Another RoPE extension),它通过温度缩放来修正因 RoPE (Rotary Position Embedding) 外推而导致的熵变,从而提升长序列模型的性能。 1. 长上下文语言模型的挑战 近年来,大型语言模型(LLMs)在各种自然语言处理任务中表现出色。然而,大多数LLMs的训练数据都限制在相对较短的上下文长度(例如,2048或4096个token)。当模型应用于超出训练范围的长序列时,性能往往会显著下降。这主要是因为: 位置编码的外推问题: 现有的位置编码方法,如绝对位置编码、相对位置编码,在超出训练长度时,要么失去意义,要么导致性能下降。RoPE作为一种流行的相对位置编码,在一定程度上缓解了这个问题,但外推到远大于训练长度的序列时,仍然面临性能衰退。 注意力机制的复杂性: 注意力机制的计算复杂度与序列长度呈平方关系,导致长序列推理的计算成本显著增加。 信息丢失: 当序列过长时,模型可能会丢失早期token的信息,导致长程 …