attention - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月22日

Transformer中的软最大值（Softmax）瓶颈：为何线性Attention在精确检索任务中表现不佳

Transformer中的Softmax瓶颈：为何线性Attention在精确检索任务中表现不佳大家好，今天我们来深入探讨Transformer架构中的一个关键组件——Softmax函数，以及它在Attention机制中带来的瓶颈，尤其是在精确检索任务中。我们将重点分析为什么线性Attention，作为一种试图缓解Softmax瓶颈的替代方案，在这些任务中表现不佳。 1. Transformer与Attention机制回顾 Transformer模型，由Vaswani等人在2017年提出，彻底改变了自然语言处理（NLP）领域。其核心在于自注意力机制（Self-Attention），它允许模型在处理序列时，关注序列中不同位置的信息。让我们简单回顾一下标准的Scaled Dot-Product Attention的计算过程：输入： Query (Q), Key (K), Value (V)。这三个矩阵都是从输入序列经过线性变换得到的。它们的维度分别是(N, d_q), (N, d_k), (N, d_v)，其中N是序列长度，d_q, d_k, d_v分别是Query, Key, Va …

继续阅读“Transformer中的软最大值（Softmax）瓶颈：为何线性Attention在精确检索任务中表现不佳”

2025年11月22日

注意力汇聚（Attention Sink）：为何首个Token即使无意义也会吸纳大量注意力权重

注意力汇聚（Attention Sink）：首个Token为何吸纳大量注意力权重大家好，今天我们来深入探讨一个在大型语言模型（LLMs）中观察到的现象，即“注意力汇聚”（Attention Sink）。具体来说，我们将聚焦于为什么模型中的第一个Token，即使它本身并没有什么语义意义（例如一个填充符），也会倾向于吸收大量的注意力权重。 1. 注意力机制基础回顾在深入分析注意力汇聚现象之前，我们先快速回顾一下Transformer模型中自注意力机制的核心原理。自注意力机制的目标是让模型在处理序列中的每个位置时，能够关注到序列中其他位置的相关信息。其计算过程可以概括如下： Query, Key, Value：对于输入序列的每个位置 i，通过线性变换将其映射为三个向量：Query (Qi), Key (Ki), 和 Value (Vi)。注意力权重：位置 i 对位置 j 的注意力权重 aij 通过计算 Qi 和 Kj 的相似度得到，通常使用缩放点积： aij = softmax(Qi · Kj / √dk) 其中 dk 是 Key 向量的维度，除以 √dk 是为了防止点积过大导致 …

继续阅读“注意力汇聚（Attention Sink）：为何首个Token即使无意义也会吸纳大量注意力权重”

2025年11月22日

归纳头（Induction Heads）：双层Attention回路如何实现复制与上下文学习

归纳头（Induction Heads）：双层Attention回路如何实现复制与上下文学习大家好，今天我们来深入探讨一下大型语言模型（LLMs）中一个非常有趣的现象：归纳头（Induction Heads）。理解归纳头对于理解LLMs如何进行上下文学习（In-Context Learning，ICL）至关重要，而上下文学习又是LLMs强大能力的核心。我们将从Attention机制入手，逐步构建双层Attention回路，并用代码演示其如何实现复制（Copying）和模拟上下文学习。 1. Attention机制回顾首先，我们来回顾一下Attention机制。Attention机制允许模型在处理序列数据时，动态地关注输入序列的不同部分。其核心思想是为输入序列的每个元素分配一个权重，表示该元素与其他元素的相关性。 Attention机制通常包含以下几个步骤：计算Query、Key和Value：对于输入序列的每个元素，通过线性变换得到Query (Q)、Key (K)和Value (V)向量。计算Attention权重：使用Query和Key计算Attention权重。常用的计 …

继续阅读“归纳头（Induction Heads）：双层Attention回路如何实现复制与上下文学习”

2025年11月22日

System 2 Attention：通过重写输入Prompt移除无关信息以提升推理准确率

System 2 Attention：重塑Prompt，提升推理精度各位技术同仁，大家好。今天我们探讨一个在AI领域，尤其是在大语言模型（LLM）应用中日益重要的课题：System 2 Attention，或者更具体地说，如何通过重写输入Prompt，移除无关信息，从而显著提升模型的推理准确性。 1. 什么是System 1 和 System 2？理解System 2 Attention之前，我们需要先了解认知心理学中的System 1 和 System 2 理论，这为我们理解LLM如何处理信息提供了一个有用的框架。 System 1 (直觉系统): 快速、自动、无意识，依赖于启发式方法和模式识别。它擅长处理简单、熟悉的任务，例如识别物体、理解简单的语言。在LLM中，可以类比为模型基于训练数据直接输出结果，无需复杂的思考过程。 System 2 (理性系统): 缓慢、审慎、有意识，需要付出努力和集中注意力。它擅长处理复杂、新颖的任务，例如逻辑推理、问题解决、批判性思维。在LLM中，可以类比为模型在生成最终答案之前，进行多步思考和推理的过程。 System 1 的局限性在于容易受到偏 …

继续阅读“System 2 Attention：通过重写输入Prompt移除无关信息以提升推理准确率”

2025年11月22日

StreamingLLM：利用Attention Sink（注意力汇聚点）实现无限长度流式对话

StreamingLLM：利用Attention Sink实现无限长度流式对话大家好，今天我们要深入探讨一个非常有意思且极具潜力的技术：StreamingLLM，它利用Attention Sink（注意力汇聚点）机制，实现了无限长度的流式对话。这意味着，我们不再受限于Transformer架构固有的上下文长度限制，可以构建真正能够“记住”并理解长期对话历史的LLM系统。 1. 背景：Transformer的上下文长度瓶颈 Transformer模型在自然语言处理领域取得了巨大成功，但其核心的自注意力机制也带来了一个显著的瓶颈：计算复杂度和内存消耗随序列长度呈平方级增长。这意味着，随着输入序列的长度增加，Transformer的计算资源需求呈指数级增长，很快就会达到硬件的极限。传统的解决方案包括：截断（Truncation）：直接丢弃超出上下文窗口的部分历史信息。这是最简单粗暴的方法，但损失了关键的上下文信息，严重影响了对话的连贯性和一致性。滑动窗口（Sliding Window）：只关注当前窗口内的上下文信息，窗口随着对话的进行而滑动。这种方法保留了一部分上下文，但窗口大小 …

继续阅读“StreamingLLM：利用Attention Sink（注意力汇聚点）实现无限长度流式对话”

2025年11月22日

Linear Attention机制：通过核函数技巧（Kernel Trick）消除Softmax瓶颈的近似计算

Linear Attention机制：通过核函数技巧消除Softmax瓶颈的近似计算大家好，今天我们来深入探讨一种高效的Attention机制——Linear Attention。在Transformer模型中，Attention机制扮演着至关重要的角色，它允许模型在处理序列数据时，能够关注到序列中不同位置的信息，从而提升模型的性能。然而，标准Attention机制中的Softmax操作，在处理长序列时，计算复杂度会急剧增加，成为模型的瓶颈。Linear Attention正是为了解决这个问题而诞生的。 1. Attention机制回顾与Softmax瓶颈首先，我们来回顾一下标准的Scaled Dot-Product Attention机制。给定Query (Q), Key (K), 和 Value (V) 三个矩阵，Attention的计算公式如下： Attention(Q, K, V) = softmax(Q * K^T / sqrt(d_k)) * V 其中，d_k 是Key向量的维度，用于缩放点积结果，防止梯度消失。这个公式的核心在于softmax(Q * K^T / s …

继续阅读“Linear Attention机制：通过核函数技巧（Kernel Trick）消除Softmax瓶颈的近似计算”

2025年11月22日

Ring Attention原理解析：利用分布式环状通信打破单卡显存限制实现百万级上下文

Ring Attention原理解析：利用分布式环状通信打破单卡显存限制实现百万级上下文各位朋友，大家好！今天我们来聊聊Ring Attention，这项技术旨在解决大型语言模型（LLM）训练和推理中，因上下文长度增加而导致的显存瓶颈问题。我们将深入探讨Ring Attention的原理、优势、以及如何通过分布式环状通信实现百万级别的上下文处理能力。 1. 上下文长度与显存瓶颈随着LLM的发展，模型能够处理的上下文长度越来越长，这使得模型在处理长文本、对话历史等任务时表现更加出色。然而，更长的上下文长度意味着更大的注意力矩阵，而注意力机制的计算复杂度是上下文长度的平方级别 (O(L^2))。这就导致了两个主要问题：计算量巨大：处理更长的上下文需要进行大量的矩阵乘法运算，显著增加计算时间。显存占用过高：注意力矩阵需要存储在显存中，当上下文长度达到一定程度时，单张显卡的显存容量将无法满足需求，导致OOM (Out of Memory) 错误。传统的注意力机制，如Scaled Dot-Product Attention，需要将整个上下文的Query (Q), Key (K), …

继续阅读“Ring Attention原理解析：利用分布式环状通信打破单卡显存限制实现百万级上下文”

2025年11月22日

基于Block-Sparse Attention的Longformer：降低长序列计算复杂度至O(n)的实现

基于Block-Sparse Attention的Longformer：降低长序列计算复杂度至O(n)的实现大家好，今天我们来深入探讨Longformer，一个能够有效处理长序列数据的Transformer模型。Longformer的核心在于其采用的Block-Sparse Attention机制，能够将Transformer模型的计算复杂度从传统的O(n^2)降低到O(n)，从而使得处理超长序列成为可能。 1. Longformer的背景和动机 Transformer模型在自然语言处理领域取得了巨大的成功，然而，其自注意力机制的计算复杂度是序列长度n的平方，这成为了处理长序列的瓶颈。传统的Transformer模型难以有效地处理长文档、长篇故事等需要长距离依赖关系的任务。例如，对于一个包含10000个token的序列，标准的自注意力机制需要计算10000 * 10000 = 1亿个注意力权重，这需要大量的计算资源和时间。为了解决这个问题，研究人员提出了各种稀疏注意力机制，旨在减少需要计算的注意力权重的数量，同时尽可能地保留模型的能力。Longformer就是其中的一种非常有效的 …

继续阅读“基于Block-Sparse Attention的Longformer：降低长序列计算复杂度至O(n)的实现”