将长 - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

Chunked Prefill调度：将长Prompt分块处理以在Batch推理中消除队头阻塞（Head-of-Line Blocking）

Chunked Prefill调度：长Prompt分块处理以消除Batch推理中的队头阻塞大家好，今天我们要深入探讨一个在大型语言模型（LLM）推理优化中至关重要的技术：Chunked Prefill调度。在高并发的在线服务场景下，LLM的推理效率直接关系到用户体验和运营成本。传统的Batch推理方式虽然可以提高硬件利用率，但面对长短不一的Prompt时，容易出现队头阻塞（Head-of-Line Blocking）问题，导致整体吞吐量下降。Chunked Prefill调度正是为了解决这一问题而提出的。 1. 背景：Batch推理与队头阻塞首先，我们来回顾一下Batch推理和队头阻塞的概念。 Batch推理是指将多个请求（Prompt）合并成一个批次，一次性提交给LLM进行推理。这种方式可以充分利用GPU等硬件资源的并行计算能力，提高整体吞吐量。例如，假设我们有三个Prompt：A、B和C，它们的长度分别为10、50和20个token。如果使用Batch推理，可以将它们组合成一个批次，一起输入到LLM中。队头阻塞是指在一个批次中，如果某个请求（通常是长度较长的请求）的处理时间过 …

继续阅读“Chunked Prefill调度：将长Prompt分块处理以在Batch推理中消除队头阻塞（Head-of-Line Blocking）”

2025年11月22日

Split-Fuse调度算法：将长Prompt分解为小块流水线处理以优化首字延迟（TTFT）

Split-Fuse调度算法：优化长Prompt的首字延迟大家好，今天我们来探讨一个在大型语言模型（LLM）推理优化中日益重要的课题：Split-Fuse调度算法。具体来说，我们将深入研究如何利用这种算法将长Prompt分解为小块，并通过流水线处理来显著优化首字延迟（Time To First Token, TTFT）。 1. 背景：长Prompt与首字延迟的挑战随着LLM能力的增强，我们越来越多地使用长Prompt来引导模型生成更复杂、更细致的输出。然而，长Prompt也带来了新的挑战，其中最突出的就是首字延迟的增加。为什么长Prompt会导致更高的TTFT？更长的处理时间：模型需要处理更多的token，这直接增加了编码（encoding）和解码（decoding）过程的时间。内存占用：长Prompt会占用更多的内存，可能导致频繁的内存交换，进一步降低效率。计算依赖：模型需要先完成对整个Prompt的理解，才能开始生成第一个token，这使得整个过程高度串行化。在高并发、实时性要求高的应用场景中，首字延迟的增加会严重影响用户体验。想象一下，用户提交了一个复杂的查询 …

继续阅读“Split-Fuse调度算法：将长Prompt分解为小块流水线处理以优化首字延迟（TTFT）”

2025年11月22日

激活信标（Activation Beacon）：将长上下文压缩到短滑动窗口中的即插即用模块

激活信标：长上下文压缩至短滑动窗口的即插即用模块大家好，今天我们要深入探讨一个非常有趣且实用的技术——激活信标（Activation Beacon）。在大型语言模型（LLM）的应用中，处理长上下文信息一直是一个挑战。一方面，LLM的计算复杂度通常随上下文长度呈指数级增长，导致效率降低；另一方面，长上下文信息中往往包含大量冗余或不相关的内容，影响模型性能。激活信标旨在解决这些问题，它提供了一种即插即用的方法，将长上下文压缩到短滑动窗口中，从而提高效率和性能。 1. 长上下文的挑战与现有解决方案在深入了解激活信标之前，我们先来回顾一下长上下文带来的挑战以及现有的解决方案。 1.1 长上下文的挑战计算复杂度高: Transformer架构是LLM的基础，其自注意力机制的计算复杂度为O(n^2)，其中n是上下文长度。这意味着处理更长的上下文需要消耗更多的计算资源和时间。信息冗余: 长上下文中可能包含大量与当前任务无关的信息，这些信息不仅增加了计算负担，还可能分散模型的注意力，导致性能下降。梯度消失/爆炸: 在训练过程中，更长的序列会导致梯度消失或爆炸的问题，使得模型难以学习到长距离依 …

继续阅读“激活信标（Activation Beacon）：将长上下文压缩到短滑动窗口中的即插即用模块”