AI大模型 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月22日

回路分析（Circuit Analysis）：逆向工程Transformer内部的算法逻辑（如加法、比较）

好的，我们开始。讲座：逆向工程 Transformer 内部的算法逻辑大家好，今天我们来深入探讨 Transformer 架构，并尝试逆向工程其内部的一些基础算法逻辑，例如加法和比较操作。我们的目标不是复现整个 Transformer，而是专注于理解这些基本 building blocks 如何协同工作，以及如何通过代码来模拟这些过程。 Transformer 架构概览首先，我们简单回顾一下 Transformer 的核心组件：输入嵌入 (Input Embedding): 将输入 tokens 转换为向量表示。位置编码 (Positional Encoding): 为 tokens 添加位置信息，因为 Transformer 本身不具有序列感知能力。多头注意力 (Multi-Head Attention): 核心机制，允许模型关注输入序列的不同部分。前馈神经网络 (Feed Forward Network): 对每个 token 的表示进行非线性变换。残差连接 (Residual Connection): 帮助梯度传播，缓解梯度消失问题。层归一化 (Layer No …

继续阅读“回路分析（Circuit Analysis）：逆向工程Transformer内部的算法逻辑（如加法、比较）”

2025年11月22日

知识神经元（Knowledge Neurons）：定位存储特定事实（如埃菲尔铁塔-巴黎）的FFN节点

知识神经元：定位存储特定事实的FFN节点各位同学，今天我们来探讨一个令人着迷的话题：知识神经元。具体来说，我们将深入研究在大型神经网络，尤其是前馈网络（FFN）中，是否存在特定的神经元，它们能够存储和表达特定的事实性知识，比如“埃菲尔铁塔 – 巴黎”这样的关系。 1. 前馈网络和知识表征的挑战首先，我们回顾一下前馈网络的基本结构。一个典型的FFN由输入层、若干个隐藏层和一个输出层组成。信息通过每一层的神经元进行非线性变换，最终得到输出。传统观点认为，知识在整个网络中以分布式的方式存储，即知识的表达不是由单个神经元负责，而是由多个神经元的激活模式共同决定。然而，这种分布式表征方式也带来了一些问题：可解释性差：很难理解网络内部到底学习到了什么知识，以及如何利用这些知识进行推理。知识编辑困难：如果需要修改或删除某个知识，很难找到需要调整的神经元，通常需要重新训练整个网络。知识迁移困难：将一个网络学习到的知识迁移到另一个网络，需要复杂的算法和大量的计算资源。 2. 知识神经元假设针对上述问题，一个大胆的假设是：在大型神经网络中，可能存在一些特殊的神经元，它们主要 …

继续阅读“知识神经元（Knowledge Neurons）：定位存储特定事实（如埃菲尔铁塔-巴黎）的FFN节点”

2025年11月22日

稀疏自编码器（SAE）：将MLP层稠密激活分解为可解释的单义性特征（Monosemanticity）

稀疏自编码器（SAE）：将MLP层稠密激活分解为可解释的单义性特征大家好，今天我们来深入探讨稀疏自编码器（Sparse Autoencoder, SAE）在神经网络可解释性方面的应用，特别是在将多层感知机（MLP）的稠密激活分解为更具可解释性的单义性特征方面。这不仅能帮助我们理解神经网络内部的工作机制，也为提升模型的鲁棒性、可控性以及安全性奠定了基础。 1. 背景：神经网络可解释性的挑战深度学习模型，尤其是像MLP这样结构复杂的模型，通常被视为“黑盒”。虽然它们在各种任务上表现出色，但我们很难理解模型做出特定决策的原因。MLP的每一层都进行复杂的非线性变换，导致中间层的激活值非常稠密，难以解释。这意味着：特征混杂：单个神经元的激活可能受到多个输入特征的影响，难以确定其代表的具体含义。语义纠缠：不同的概念或特征可能会被编码在同一个神经元中，使得理解单个神经元的激活变得困难。泛化能力差：由于模型学习到的特征过于复杂和冗余，容易过拟合训练数据，导致在未见过的数据上表现不佳。因此，我们需要一种方法来解开这些纠缠的特征，将稠密的激活分解为更具有单义性的、易于理解的表示。 2. …

继续阅读“稀疏自编码器（SAE）：将MLP层稠密激活分解为可解释的单义性特征（Monosemanticity）”

2025年11月22日

Logit Lens技术：直接将中间层Hidden State投影到词表以透视推理过程

Logit Lens：窥视语言模型的推理黑盒大家好，今天我们来探讨一个令人着迷的技术——Logit Lens。这个技术提供了一种直接而简洁的方式，去理解大型语言模型（LLM）内部的推理过程，它允许我们“透视”模型中间层的隐藏状态，并将其直接映射到词汇表，从而揭示模型在不同阶段对下一个词的预测。长期以来，大型语言模型都被视为一个黑盒子。我们输入文本，模型输出结果，但我们很难理解模型内部发生了什么，为什么会做出这样的预测。Logit Lens的出现，为我们打开了一扇窗，让我们能够窥视模型内部的决策过程。 1. Logit Lens的核心思想 Logit Lens的核心思想非常简单：将Transformer模型中间层的隐藏状态（Hidden State）直接投影到词汇表空间，得到一个与词汇表大小相同的logits向量，然后分析这个logits向量，就可以了解模型在当前层对下一个词的预测倾向。传统的理解模型的方式，通常是基于梯度分析、注意力机制可视化等方法。这些方法虽然有用，但通常比较间接，而且难以解释。Logit Lens则提供了一种更加直接和可解释的方法。让我们用公式来表达这个过程 …

继续阅读“Logit Lens技术：直接将中间层Hidden State投影到词表以透视推理过程”

2025年11月22日

归纳头（Induction Heads）：双层Attention回路如何实现复制与上下文学习

归纳头（Induction Heads）：双层Attention回路如何实现复制与上下文学习大家好，今天我们来深入探讨一下大型语言模型（LLMs）中一个非常有趣的现象：归纳头（Induction Heads）。理解归纳头对于理解LLMs如何进行上下文学习（In-Context Learning，ICL）至关重要，而上下文学习又是LLMs强大能力的核心。我们将从Attention机制入手，逐步构建双层Attention回路，并用代码演示其如何实现复制（Copying）和模拟上下文学习。 1. Attention机制回顾首先，我们来回顾一下Attention机制。Attention机制允许模型在处理序列数据时，动态地关注输入序列的不同部分。其核心思想是为输入序列的每个元素分配一个权重，表示该元素与其他元素的相关性。 Attention机制通常包含以下几个步骤：计算Query、Key和Value：对于输入序列的每个元素，通过线性变换得到Query (Q)、Key (K)和Value (V)向量。计算Attention权重：使用Query和Key计算Attention权重。常用的计 …

继续阅读“归纳头（Induction Heads）：双层Attention回路如何实现复制与上下文学习”

2025年11月22日

动态温度（Dynamic Temperature）：根据Token确信度实时调整采样熵的策略

动态温度：根据 Token 确信度实时调整采样熵的策略大家好，今天我们来深入探讨一下大语言模型（LLM）解码策略中的一个重要概念——动态温度。在传统的解码方法中，温度（Temperature）是一个全局性的超参数，它控制着模型生成文本的随机性。然而，这种一刀切的方法往往难以适应模型输出的不同阶段和不同类型的 Token。动态温度策略则试图解决这个问题，它根据模型对每个 Token 的“确信度”来实时调整采样熵，从而更精细地控制生成过程。 1. 温度采样的基本原理在深入动态温度之前，我们先回顾一下标准温度采样的基本原理。假设我们有一个语言模型，它预测下一个 Token 的概率分布为 P(x_i | x_{<i})，其中 x_i 是第 i 个 Token，x_{<i} 是它之前的 Token 序列。在解码过程中，我们希望从这个概率分布中采样得到下一个 Token。温度 T 的作用是调整这个概率分布的形状。经过温度缩放后的概率分布 P_T(x_i | x_{<i}) 定义如下： P_T(x_i | x_{<i}) = softmax(logits / T) 其 …

继续阅读“动态温度（Dynamic Temperature）：根据Token确信度实时调整采样熵的策略”

2025年11月22日

Skeleton-of-Thought：先生成大纲骨架再并行填充内容的极速推理模式

Skeleton-of-Thought：极速推理的编程骨架大家好，今天我们要探讨一种极速推理模式，我称之为 "Skeleton-of-Thought" (简称 SoT)，即 “编程骨架”。这种模式借鉴了人类解决复杂问题时常用的先构建框架，再填充细节的策略，旨在提升编程效率，尤其是在面对需要快速迭代、探索性强的问题时。一、SoT 的核心思想 SoT 的核心在于将问题分解为若干个关键步骤，并首先构建一个粗略的“骨架”代码，该骨架定义了程序的整体结构和关键模块之间的交互方式。随后，我们可以并行地填充每个模块的具体实现细节，从而加快开发速度。 1.1 为什么要使用 SoT？传统的编程方法通常是自上而下或自下而上，这两种方式都存在一定的局限性。自上而下可能会陷入过早优化，而自下而上则可能导致系统结构不清晰。 SoT 试图克服这些问题，它具有以下优点：加速迭代速度：快速构建骨架，尽早验证核心逻辑。并行开发：团队成员可以同时进行不同模块的开发。降低风险：尽早发现潜在的设计缺陷。提高代码可读性：清晰的骨架结构有助于理解代码。 1.2 SoT 的适用场景 …

继续阅读“Skeleton-of-Thought：先生成大纲骨架再并行填充内容的极速推理模式”

2025年11月22日

激活信标（Activation Beacon）：将长上下文压缩到短滑动窗口中的即插即用模块

激活信标：长上下文压缩至短滑动窗口的即插即用模块大家好，今天我们要深入探讨一个非常有趣且实用的技术——激活信标（Activation Beacon）。在大型语言模型（LLM）的应用中，处理长上下文信息一直是一个挑战。一方面，LLM的计算复杂度通常随上下文长度呈指数级增长，导致效率降低；另一方面，长上下文信息中往往包含大量冗余或不相关的内容，影响模型性能。激活信标旨在解决这些问题，它提供了一种即插即用的方法，将长上下文压缩到短滑动窗口中，从而提高效率和性能。 1. 长上下文的挑战与现有解决方案在深入了解激活信标之前，我们先来回顾一下长上下文带来的挑战以及现有的解决方案。 1.1 长上下文的挑战计算复杂度高: Transformer架构是LLM的基础，其自注意力机制的计算复杂度为O(n^2)，其中n是上下文长度。这意味着处理更长的上下文需要消耗更多的计算资源和时间。信息冗余: 长上下文中可能包含大量与当前任务无关的信息，这些信息不仅增加了计算负担，还可能分散模型的注意力，导致性能下降。梯度消失/爆炸: 在训练过程中，更长的序列会导致梯度消失或爆炸的问题，使得模型难以学习到长距离依 …

继续阅读“激活信标（Activation Beacon）：将长上下文压缩到短滑动窗口中的即插即用模块”

2025年11月22日

大模型中的“水印攻击”：通过特定Token分布扰动破坏检测机制的对抗性研究

大模型水印攻击：基于Token分布扰动的对抗性研究各位听众，大家好。今天我们来探讨一个非常前沿且重要的课题：大模型水印攻击，特别是基于Token分布扰动破坏检测机制的对抗性研究。 1. 水印技术与大模型安全性随着大型语言模型（LLMs）的飞速发展，它们在各个领域展现出强大的能力，但也面临着诸多安全挑战。其中，生成内容的溯源和版权保护成为了一个关键问题。想象一下，如果有人利用LLM生成虚假新闻或恶意代码，并声称是他人所为，后果将不堪设想。水印技术应运而生，旨在为LLM生成的内容打上可验证的“指纹”，以便在事后追踪和识别。简单来说，水印技术通过在生成过程中引入特定的、不易察觉的模式，使得生成的文本具有某种可检测的特征。 2. 水印的基本原理：Token选择偏差目前主流的水印技术，往往基于Token选择偏差（Token Selection Bias）。其核心思想是在生成文本时，人为地影响模型选择Token的概率分布，使其倾向于选择预先设定的“水印Token”。一种常见的实现方式是将模型的词汇表划分为两个集合：绿名单（Green List）和红名单（Red List）。绿名单中的 …

继续阅读“大模型中的“水印攻击”：通过特定Token分布扰动破坏检测机制的对抗性研究”

2025年11月22日

推测采样的树状验证（Tree Speculative Decoding）：并行验证多个Draft Token的算法设计

推测采样的树状验证（Tree Speculative Decoding）：并行验证多个Draft Token的算法设计大家好，今天我们来深入探讨一个用于加速大型语言模型（LLM）推理的技术：推测采样的树状验证，也称 Tree Speculative Decoding。我们将从背景知识出发，逐步推导出算法设计，并给出相应的代码示例。 1. 背景与动机大型语言模型在生成文本时，通常采用自回归的方式，即每次生成一个 token，并将该 token 作为下一个 token 生成的输入。这种方式虽然简单有效，但效率较低，因为每个 token 的生成都需要完整地执行一遍模型。推测采样（Speculative Decoding）旨在通过引入一个较小的“草稿模型”（Draft Model），先快速生成多个 token 的草稿，然后使用更大的“目标模型”（Target Model）并行验证这些草稿 token，从而加速推理过程。如果草稿 token 验证通过，则可以直接采用，否则需要由目标模型重新生成。传统的推测采样通常采用链式验证的方式，即草稿模型生成一个 token，目标模型验证该 toke …

继续阅读“推测采样的树状验证（Tree Speculative Decoding）：并行验证多个Draft Token的算法设计”