智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年11月22日

Self-RAG：训练模型输出检索标记（Reflection Tokens）以自我控制检索行为

Self-RAG：赋予语言模型自我反思能力的检索增强生成大家好，今天我们来深入探讨一个非常有趣且前沿的研究方向：Self-RAG，即Self-Reflective Retrieval Augmented Generation。简单来说，Self-RAG的核心思想是训练语言模型，使其在生成文本的同时，能够输出一些特殊的“反射标记”（Reflection Tokens），这些标记用于控制模型自身的检索行为，从而更好地利用外部知识库，提升生成质量和可靠性。 1. 传统检索增强生成（RAG）的局限性在深入Self-RAG之前，我们先回顾一下传统的RAG方法。RAG的基本流程如下：检索（Retrieval）：给定一个输入prompt，使用检索模型（例如，基于向量相似度搜索的FAISS或基于关键词匹配的BM25）从外部知识库中检索出相关的文档片段。增强（Augmentation）：将检索到的文档片段与原始prompt拼接在一起，形成一个增强的输入。生成（Generation）：将增强的输入送入语言模型，生成最终的输出文本。尽管RAG在很多场景下都表现出色，但它仍然存在一些局限性： …

继续阅读“Self-RAG：训练模型输出检索标记（Reflection Tokens）以自我控制检索行为”

2025年11月22日

System 2 Attention：通过重写输入Prompt移除无关信息以提升推理准确率

System 2 Attention：重塑Prompt，提升推理精度各位技术同仁，大家好。今天我们探讨一个在AI领域，尤其是在大语言模型（LLM）应用中日益重要的课题：System 2 Attention，或者更具体地说，如何通过重写输入Prompt，移除无关信息，从而显著提升模型的推理准确性。 1. 什么是System 1 和 System 2？理解System 2 Attention之前，我们需要先了解认知心理学中的System 1 和 System 2 理论，这为我们理解LLM如何处理信息提供了一个有用的框架。 System 1 (直觉系统): 快速、自动、无意识，依赖于启发式方法和模式识别。它擅长处理简单、熟悉的任务，例如识别物体、理解简单的语言。在LLM中，可以类比为模型基于训练数据直接输出结果，无需复杂的思考过程。 System 2 (理性系统): 缓慢、审慎、有意识，需要付出努力和集中注意力。它擅长处理复杂、新颖的任务，例如逻辑推理、问题解决、批判性思维。在LLM中，可以类比为模型在生成最终答案之前，进行多步思考和推理的过程。 System 1 的局限性在于容易受到偏 …

继续阅读“System 2 Attention：通过重写输入Prompt移除无关信息以提升推理准确率”

2025年11月22日

Batched Speculative Decoding：在Batch推理场景下应用投机采样的复杂调度

Batched Speculative Decoding：在Batch推理场景下应用投机采样的复杂调度大家好，今天我们来深入探讨一个前沿的LLM推理加速技术——Batched Speculative Decoding。投机采样 (Speculative Decoding) 已经成为加速LLM推理的热门方法，它通过引入一个小的“草稿模型 (Draft Model)”来预测多个后续token，然后用一个大的“目标模型 (Target Model)”来并行验证这些预测。如果预测正确，则可以显著减少Target Model的调用次数，从而加速推理。然而，在实际应用中，尤其是在高吞吐量的Batch推理场景下，如何高效地调度和管理这些投机采样过程，以最大化加速效果，是一个具有挑战性的问题。这就是我们要讨论的重点：Batched Speculative Decoding中的复杂调度。 1. 投机采样 (Speculative Decoding) 基础回顾为了更好地理解Batched Speculative Decoding，我们首先回顾一下其核心思想。传统的自回归解码过程是串行的，每次只能生成 …

继续阅读“Batched Speculative Decoding：在Batch推理场景下应用投机采样的复杂调度”

2025年11月22日

S-LoRA：在多租户服务中实现成百上千个LoRA适配器的可扩展服务架构

S-LoRA：在多租户服务中实现成百上千个LoRA适配器的可扩展服务架构大家好！今天我们来深入探讨一个非常有趣且极具挑战性的主题：如何在多租户环境中实现成百上千个LoRA（Low-Rank Adaptation）适配器的可扩展服务架构，即 S-LoRA。 LoRA 作为一种高效的参数高效微调方法，已经广泛应用于各种预训练语言模型（PLM）的定制化场景。然而，当我们需要在多租户环境下为每个租户提供独立的 LoRA 模型时，传统的服务架构会面临诸多挑战，例如内存占用过高、模型切换延迟大、资源利用率低等。S-LoRA 的出现正是为了解决这些问题，它通过一系列巧妙的设计，实现了 LoRA 模型的高效共享和动态切换，从而构建一个可扩展的多租户服务架构。 LoRA 的基本原理回顾在深入 S-LoRA 之前，我们先简单回顾一下 LoRA 的基本原理。LoRA 的核心思想是在预训练模型的基础上，引入少量的可训练参数，这些参数通常以低秩矩阵的形式存在。在微调过程中，我们只更新这些低秩矩阵，而冻结预训练模型的原始参数。具体来说，对于预训练模型的某个权重矩阵 W0，LoRA 会引入两个低秩矩阵 A 和 …

继续阅读“S-LoRA：在多租户服务中实现成百上千个LoRA适配器的可扩展服务架构”

2025年11月22日

PowerInfer：利用激活稀疏性实现消费级GPU与CPU混合推理的卸载策略

PowerInfer：消费级GPU与CPU混合推理卸载策略的深度剖析大家好！今天我们来深入探讨一个令人兴奋的话题：PowerInfer，它是一种巧妙利用激活稀疏性，实现消费级GPU与CPU混合推理卸载的策略。在大模型时代，推理成本居高不下，特别是在资源有限的消费级设备上。PowerInfer的出现，为我们提供了一种低成本高效的推理解决方案。 1. 大模型推理的挑战与机遇大语言模型（LLMs）在自然语言处理领域取得了显著的进展。然而，它们巨大的规模给推理带来了严峻的挑战：计算需求高昂： LLMs包含数十亿甚至数万亿的参数，需要大量的计算资源才能进行推理。内存占用巨大：模型的参数和激活值需要大量的内存空间，超出了消费级GPU的容量。延迟敏感性：许多应用场景对推理延迟有严格的要求，例如实时对话和搜索。尽管存在这些挑战，大模型推理也蕴藏着巨大的机遇。如果我们能够有效地利用有限的计算资源，就可以在消费级设备上运行LLMs，从而实现更广泛的应用。 2. 激活稀疏性：PowerInfer的核心洞察 PowerInfer的核心思想是利用LLMs中的激活稀疏性。研究表明，在LLMs的推 …

继续阅读“PowerInfer：利用激活稀疏性实现消费级GPU与CPU混合推理的卸载策略”

2025年11月22日

Apple MLX框架：统一内存架构（Unified Memory）在Apple Silicon上的大模型推理优化

Apple MLX框架：统一内存架构在Apple Silicon上的大模型推理优化大家好，今天我们来深入探讨一下Apple MLX框架，以及它如何在Apple Silicon芯片的统一内存架构下优化大模型推理。这次讲座将从统一内存架构的优势、MLX框架的核心设计理念、推理优化的关键技术和代码示例四个方面展开。一、统一内存架构（UMA）的优势传统的CPU-GPU架构中，CPU和GPU拥有独立的物理内存，数据在两者之间需要进行频繁的拷贝，这会带来显著的性能瓶颈。而Apple Silicon采用的统一内存架构（UMA）则打破了这种限制。 1. 统一寻址空间： UMA的核心优势在于CPU和GPU共享同一块物理内存，它们可以通过相同的地址访问数据，避免了数据拷贝的开销。这意味着，模型参数和中间计算结果可以直接在CPU和GPU之间共享，无需显式的数据传输。 2. 减少数据拷贝：由于数据共享，CPU和GPU可以直接在同一块内存上进行操作，省去了将数据从CPU内存复制到GPU内存或反之的步骤。这极大地降低了延迟，提高了整体性能。 3. 简化编程模型： UMA简化了编程模型，开发者不需要手动管理 …

继续阅读“Apple MLX框架：统一内存架构（Unified Memory）在Apple Silicon上的大模型推理优化”

2025年11月22日

Groq LPU架构：确定性张量流处理器如何实现每秒500 token的推理速度

好的，下面我们开始今天的讲座，主题是Groq LPU架构及其如何实现每秒500 token的推理速度。 Groq LPU架构：确定性张量流处理器如何实现每秒500 token的推理速度各位同学，今天我们来深入探讨一下Groq的语言处理单元(LPU)架构，以及它如何能够在推理速度上取得显著的突破，达到每秒500 token的水平。这不仅仅是一个数字，它代表着一种全新的计算范式，尤其是在深度学习推理方面。 1. 传统架构的瓶颈在深入了解LPU之前，我们先回顾一下传统CPU和GPU在深度学习推理中面临的挑战。 CPU: CPU擅长通用计算，但在处理大规模矩阵运算时效率较低。深度学习模型的核心就是大量的矩阵乘法和加法，CPU的架构并不为此优化。 GPU: GPU通过并行处理能力在训练阶段表现出色，但在推理阶段，其动态调度和高功耗成为瓶颈。推理通常需要低延迟和高吞吐量，而GPU的设计更多考虑了训练的并行性。此外，GPU的内存带宽也可能成为限制因素，尤其是对于大型模型。这些瓶颈导致了较高的延迟和较低的吞吐量，从而限制了实时应用的可能性。 2. Groq LPU架构的核心理念 Groq LPU …

继续阅读“Groq LPU架构：确定性张量流处理器如何实现每秒500 token的推理速度”

2025年11月22日

Early Exit机制：根据样本难度动态决定推理层数以减少计算延迟

Early Exit机制：根据样本难度动态决定推理层数以减少计算延迟大家好！今天我们来聊聊一个非常实用的深度学习加速技术——Early Exit机制。在实际应用中，我们经常会遇到这样的情况：一些简单的样本，比如清晰的图片，可能只需要模型的前几层就可以准确分类，而继续通过后面的层只会增加计算负担，却不会显著提升精度。Early Exit机制的核心思想就是，让模型能够根据输入样本的“难度”动态地决定需要执行多少层推理，从而在保证精度的前提下，显著降低计算延迟。 1. 为什么需要Early Exit？深度学习模型，尤其是Transformer类模型，通常拥有非常深的结构，动辄几十甚至上百层。虽然深层模型能够提取更复杂的特征，从而在某些任务上取得更好的性能，但也带来了巨大的计算开销。这在高延迟敏感的应用场景，例如实时语音识别、自动驾驶等，是难以接受的。传统的做法是，所有样本都必须经过模型的所有层才能得到最终的预测结果，这显然是一种资源浪费。想象一下，你只需要看一眼就能认出的图片，却要经过复杂的卷积神经网络的全部计算过程，这显然是不合理的。 Early Exit机制的出现，就是为了解决这个 …

继续阅读“Early Exit机制：根据样本难度动态决定推理层数以减少计算延迟”

2025年11月22日

Diffusion Models生成文本：Diffusion-LM与自回归模型生成质量的对比研究

Diffusion Models生成文本：Diffusion-LM与自回归模型生成质量的对比研究大家好！今天我们来聊聊一个近年来备受关注的文本生成技术：Diffusion Models。更具体地说，我们将深入探讨 Diffusion Models 如何应用于文本生成，并将其性能与传统的自回归模型进行比较，尤其关注 Diffusion-LM 这个具有代表性的模型。 1. 文本生成任务的演变与挑战文本生成任务，从最初的机器翻译、文本摘要，到如今的对话系统、故事创作，已经渗透到我们日常生活的方方面面。早期，循环神经网络（RNN）及其变种，如LSTM、GRU，是文本生成领域的主流。随后，Transformer架构凭借其强大的并行计算能力和对长距离依赖关系的建模能力，迅速取代了RNN，成为新的霸主。GPT、BERT、T5等预训练语言模型在大量文本数据上进行训练，并在下游任务上进行微调，极大地提升了文本生成的质量。然而，自回归模型虽然表现出色，但也存在一些固有的局限性：暴露偏差（Exposure Bias）: 在训练阶段，模型接收真实的文本序列作为输入，预测下一个词；而在推理阶段，模型生成 …

继续阅读“Diffusion Models生成文本：Diffusion-LM与自回归模型生成质量的对比研究”

2025年11月22日

Transformer的替代者：Hyena Hierarchy基于隐式卷积的长序列建模能力

Hyena Hierarchy：基于隐式卷积的长序列建模能力各位同学，大家好！今天我们来深入探讨一种新兴的Transformer替代方案：Hyena Hierarchy。随着序列长度的不断增长，Transformer在计算复杂度和内存占用方面的挑战日益凸显。Hyena Hierarchy作为一种创新的架构，旨在通过隐式卷积来高效处理长序列，并克服Transformer的一些固有局限性。 1. Transformer的瓶颈与长序列建模的需求 Transformer模型在自然语言处理（NLP）领域取得了巨大成功，其核心机制是自注意力机制。自注意力允许模型在处理序列中的每个元素时，都能关注到序列中的所有其他元素，从而捕捉长距离依赖关系。然而，这种全局注意力机制的计算复杂度为O(N^2)，其中N是序列长度。这意味着随着序列长度的增加，计算量呈平方级增长。此外，Transformer的内存需求也与序列长度呈平方关系，这使得处理非常长的序列变得非常昂贵，甚至不可行。因此，我们需要更高效的长序列建模方法。长序列建模的需求在多个领域都很迫切，例如：基因组学: 分析完整的基因组序列需要处理数百万 …

继续阅读“Transformer的替代者：Hyena Hierarchy基于隐式卷积的长序列建模能力”