位置编码的“迷失中间”现象:大模型为何忽略上下文中间信息 大家好,今天我们来聊聊大语言模型(LLMs)中的一个有趣的现象——“迷失中间”(Lost in the Middle)。简单来说,就是大型模型在处理长文本时,往往更关注上下文的首尾部分,而对中间部分的信息重视程度较低,这可能会影响模型的理解和生成效果。 1. 什么是位置编码? 在深入探讨“迷失中间”之前,我们先来回顾一下位置编码。Transformer 模型,作为现代 LLMs 的基石,其核心特点之一就是自注意力机制。但自注意力机制本身是位置无关的,也就是说,它无法区分输入序列中不同位置的词语。为了让模型感知到词语的顺序信息,我们需要引入位置编码。 位置编码的目标是为序列中的每个位置添加一个独特的向量,这个向量能够编码位置信息,并与词嵌入向量结合,共同输入到模型中。常用的位置编码方法有两种: 绝对位置编码: 为每个位置分配一个固定的向量。 相对位置编码: 编码词语之间的相对距离。 1.1 绝对位置编码:正弦余弦函数 Transformer 论文中使用的就是基于正弦余弦函数的绝对位置编码。其公式如下: PE(pos, 2i) = …