系统2注意力(System 2 Attention):通过重写输入Prompt以此移除无关上下文的注意力聚焦

好的,我们开始。 系统2注意力:重写Prompt以移除无关上下文的注意力聚焦 大家好,今天我们来探讨一个在自然语言处理(NLP)领域,尤其是在使用大型语言模型(LLMs)时非常关键的概念:系统2注意力,以及如何通过重写输入Prompt来移除无关上下文,从而更有效地聚焦模型的注意力。 1. 系统1与系统2思维 首先,我们需要理解“系统1”和“系统2”思维的概念,它们来源于心理学家Daniel Kahneman的著作《思考,快与慢》。 系统1: 快速、直觉、情感化、无意识。它依赖于经验和启发式方法,可以迅速做出判断,但容易出错。 系统2: 慢速、理性、逻辑化、有意识。它需要更多的认知资源,进行深思熟虑的分析,但更准确。 在LLM的上下文中,我们可以将系统1类比为模型在训练过程中学习到的模式和关联,系统2类比为模型在Prompt引导下进行推理和理解的能力。我们希望LLM更多地利用系统2的能力,但前提是必须提供清晰、明确的Prompt,减少无关信息的干扰。 2. 无关上下文的危害 LLM在处理信息时,会将Prompt中的所有内容都纳入考虑范围。如果Prompt中包含与目标任务无关的信息(噪音) …

注意力汇聚(Attention Sink):为何首个Token即使无意义也会吸纳大量注意力权重

注意力汇聚(Attention Sink):首个Token为何吸纳大量注意力权重 大家好,今天我们来深入探讨一个在大型语言模型(LLMs)中观察到的现象,即“注意力汇聚”(Attention Sink)。具体来说,我们将聚焦于为什么模型中的第一个Token,即使它本身并没有什么语义意义(例如一个填充符),也会倾向于吸收大量的注意力权重。 1. 注意力机制基础回顾 在深入分析注意力汇聚现象之前,我们先快速回顾一下Transformer模型中自注意力机制的核心原理。 自注意力机制的目标是让模型在处理序列中的每个位置时,能够关注到序列中其他位置的相关信息。其计算过程可以概括如下: Query, Key, Value: 对于输入序列的每个位置 i,通过线性变换将其映射为三个向量:Query (Qi), Key (Ki), 和 Value (Vi)。 注意力权重: 位置 i 对位置 j 的注意力权重 aij 通过计算 Qi 和 Kj 的相似度得到,通常使用缩放点积: aij = softmax(Qi · Kj / √dk) 其中 dk 是 Key 向量的维度,除以 √dk 是为了防止点积过大导致 …