draft - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Speculative Streaming：在流式传输中利用Draft Model并行生成并验证多个Token

Speculative Streaming：在流式传输中利用Draft Model并行生成并验证多个Token 大家好，今天我们要讨论一个令人兴奋的话题：Speculative Streaming。它旨在通过并行生成和验证多个token，来提升流式传输场景下大型语言模型（LLM）的推理速度。这个技术的核心思想是利用一个较小的、速度更快的“Draft Model”（也称为“提案模型”或“辅助模型”）来并行生成多个候选token，然后使用更大的、更准确的“Verification Model”（验证模型，通常就是我们想要使用的LLM）来验证这些候选token，从而在保证生成质量的前提下加速推理过程。 1. 背景：流式传输的挑战与机遇在深入Speculative Streaming之前，我们首先需要了解流式传输（Streaming）的背景以及它带来的挑战。流式传输指的是模型在生成token时，可以立即将已生成的token输出，而不需要等待整个序列生成完毕。这种方式对于实时应用，例如对话机器人、实时翻译、代码补全等，至关重要。然而，流式传输也面临着一些挑战：延迟问题：传统的自回归生成方 …

继续阅读“Speculative Streaming：在流式传输中利用Draft Model并行生成并验证多个Token”

2025年11月22日

EAGLE投机采样：利用特征层面的回归预测进一步提升Draft步骤的准确率

好的，没问题。 EAGLE投机采样：利用特征层面的回归预测进一步提升Draft步骤的准确率大家好，今天我们来深入探讨一种提升大型语言模型（LLM）生成质量的技术：EAGLE投机采样。EAGLE，全称为"Exploiting Attributes Guided Language Exploration"，它通过在Draft阶段引入特征层面的回归预测，显著提高了采样效率和准确性。我们将从投机采样的基础概念出发，逐步剖析EAGLE的核心思想、实现细节，并通过代码示例展示其应用。 1. 投机采样的基础投机采样 (Speculative Decoding) 是一种加速LLM推理过程的技术。其核心思想是利用一个小的、速度快的模型 (Draft Model) 来预测LLM (Target Model) 可能生成的多个token，然后由Target Model并行验证这些token。如果验证通过，则一次性生成多个token，从而减少了Target Model的调用次数，显著加速推理。具体来说，投机采样包含两个关键步骤： Draft (提案) 阶段：使用Draft Model …

继续阅读“EAGLE投机采样：利用特征层面的回归预测进一步提升Draft步骤的准确率”

2025年11月22日

投机采样（Speculative Decoding）：利用Draft Model实现大模型推理的倍数级加速

投机采样（Speculative Decoding）：利用Draft Model实现大模型推理的倍数级加速各位听众，大家好！今天我们来深入探讨一种能够显著加速大型语言模型（LLM）推理的技术——投机采样（Speculative Decoding）。随着LLM的参数规模日益增大，其推理速度成为了一个重要的瓶颈。投机采样通过引入一个小型、快速的“草稿模型”（Draft Model），在保证生成质量的前提下，实现了推理速度的倍数级提升。 1. 背景与动机 LLM在各种自然语言处理任务中取得了显著的成果，例如文本生成、机器翻译、问答等。然而，LLM的计算复杂度随着模型规模的增长而急剧增加。传统的自回归解码（Autoregressive Decoding）方法，如Greedy Decoding、Beam Search等，在每一步生成token时都需要完整地运行整个模型，这使得推理过程非常耗时。自回归解码的瓶颈：串行依赖：每个token的生成都依赖于之前生成的token，因此无法并行计算。完整模型运行：每一步都需要完整运行整个模型，计算量巨大。为了解决这些问题，研究人员提出了投机采样 …

继续阅读“投机采样（Speculative Decoding）：利用Draft Model实现大模型推理的倍数级加速”