注意力 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

好的，我们开始。系统2注意力：重写Prompt以移除无关上下文的注意力聚焦大家好，今天我们来探讨一个在自然语言处理（NLP）领域，尤其是在使用大型语言模型（LLMs）时非常关键的概念：系统2注意力，以及如何通过重写输入Prompt来移除无关上下文，从而更有效地聚焦模型的注意力。 1. 系统1与系统2思维首先，我们需要理解“系统1”和“系统2”思维的概念，它们来源于心理学家Daniel Kahneman的著作《思考，快与慢》。系统1：快速、直觉、情感化、无意识。它依赖于经验和启发式方法，可以迅速做出判断，但容易出错。系统2：慢速、理性、逻辑化、有意识。它需要更多的认知资源，进行深思熟虑的分析，但更准确。在LLM的上下文中，我们可以将系统1类比为模型在训练过程中学习到的模式和关联，系统2类比为模型在Prompt引导下进行推理和理解的能力。我们希望LLM更多地利用系统2的能力，但前提是必须提供清晰、明确的Prompt，减少无关信息的干扰。 2. 无关上下文的危害 LLM在处理信息时，会将Prompt中的所有内容都纳入考虑范围。如果Prompt中包含与目标任务无关的信息（噪音） …

继续阅读“系统2注意力（System 2 Attention）：通过重写输入Prompt以此移除无关上下文的注意力聚焦”

注意力汇聚（Attention Sink）：首个Token为何吸纳大量注意力权重大家好，今天我们来深入探讨一个在大型语言模型（LLMs）中观察到的现象，即“注意力汇聚”（Attention Sink）。具体来说，我们将聚焦于为什么模型中的第一个Token，即使它本身并没有什么语义意义（例如一个填充符），也会倾向于吸收大量的注意力权重。 1. 注意力机制基础回顾在深入分析注意力汇聚现象之前，我们先快速回顾一下Transformer模型中自注意力机制的核心原理。自注意力机制的目标是让模型在处理序列中的每个位置时，能够关注到序列中其他位置的相关信息。其计算过程可以概括如下： Query, Key, Value：对于输入序列的每个位置 i，通过线性变换将其映射为三个向量：Query (Qi), Key (Ki), 和 Value (Vi)。注意力权重：位置 i 对位置 j 的注意力权重 aij 通过计算 Qi 和 Kj 的相似度得到，通常使用缩放点积： aij = softmax(Qi · Kj / √dk) 其中 dk 是 Key 向量的维度，除以 √dk 是为了防止点积过大导致 …

继续阅读“注意力汇聚（Attention Sink）：为何首个Token即使无意义也会吸纳大量注意力权重”