注意力汇聚(Attention Sink):为何首个Token即使无意义也会吸纳大量注意力权重

注意力汇聚(Attention Sink):首个Token为何吸纳大量注意力权重 大家好,今天我们来深入探讨一个在大型语言模型(LLMs)中观察到的现象,即“注意力汇聚”(Attention Sink)。具体来说,我们将聚焦于为什么模型中的第一个Token,即使它本身并没有什么语义意义(例如一个填充符),也会倾向于吸收大量的注意力权重。 1. 注意力机制基础回顾 在深入分析注意力汇聚现象之前,我们先快速回顾一下Transformer模型中自注意力机制的核心原理。 自注意力机制的目标是让模型在处理序列中的每个位置时,能够关注到序列中其他位置的相关信息。其计算过程可以概括如下: Query, Key, Value: 对于输入序列的每个位置 i,通过线性变换将其映射为三个向量:Query (Qi), Key (Ki), 和 Value (Vi)。 注意力权重: 位置 i 对位置 j 的注意力权重 aij 通过计算 Qi 和 Kj 的相似度得到,通常使用缩放点积: aij = softmax(Qi · Kj / √dk) 其中 dk 是 Key 向量的维度,除以 √dk 是为了防止点积过大导致 …