中间 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

位置编码的“迷失中间”现象：大模型为何忽略上下文中间信息大家好，今天我们来聊聊大语言模型（LLMs）中的一个有趣的现象——“迷失中间”（Lost in the Middle）。简单来说，就是大型模型在处理长文本时，往往更关注上下文的首尾部分，而对中间部分的信息重视程度较低，这可能会影响模型的理解和生成效果。 1. 什么是位置编码？在深入探讨“迷失中间”之前，我们先来回顾一下位置编码。Transformer 模型，作为现代 LLMs 的基石，其核心特点之一就是自注意力机制。但自注意力机制本身是位置无关的，也就是说，它无法区分输入序列中不同位置的词语。为了让模型感知到词语的顺序信息，我们需要引入位置编码。位置编码的目标是为序列中的每个位置添加一个独特的向量，这个向量能够编码位置信息，并与词嵌入向量结合，共同输入到模型中。常用的位置编码方法有两种：绝对位置编码：为每个位置分配一个固定的向量。相对位置编码：编码词语之间的相对距离。 1.1 绝对位置编码：正弦余弦函数 Transformer 论文中使用的就是基于正弦余弦函数的绝对位置编码。其公式如下： PE(pos, 2i) = …

继续阅读“位置编码的“迷失中间”现象：为何大模型倾向于关注上下文的首尾而忽略中间信息”