chunked - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

Chunked Prefill调度：长Prompt分块处理以消除Batch推理中的队头阻塞大家好，今天我们要深入探讨一个在大型语言模型（LLM）推理优化中至关重要的技术：Chunked Prefill调度。在高并发的在线服务场景下，LLM的推理效率直接关系到用户体验和运营成本。传统的Batch推理方式虽然可以提高硬件利用率，但面对长短不一的Prompt时，容易出现队头阻塞（Head-of-Line Blocking）问题，导致整体吞吐量下降。Chunked Prefill调度正是为了解决这一问题而提出的。 1. 背景：Batch推理与队头阻塞首先，我们来回顾一下Batch推理和队头阻塞的概念。 Batch推理是指将多个请求（Prompt）合并成一个批次，一次性提交给LLM进行推理。这种方式可以充分利用GPU等硬件资源的并行计算能力，提高整体吞吐量。例如，假设我们有三个Prompt：A、B和C，它们的长度分别为10、50和20个token。如果使用Batch推理，可以将它们组合成一个批次，一起输入到LLM中。队头阻塞是指在一个批次中，如果某个请求（通常是长度较长的请求）的处理时间过 …

继续阅读“Chunked Prefill调度：将长Prompt分块处理以在Batch推理中消除队头阻塞（Head-of-Line Blocking）”

Sarathi-Serve 调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线各位朋友，大家好！今天我们来深入探讨一个高性能服务框架 Sarathi-Serve 的核心调度策略：分块预填充（Chunked Prefills）。在现代深度学习服务中，尤其是在处理长序列输入时，计算资源和内存带宽往往成为性能瓶颈。Sarathi-Serve 通过精心设计的调度策略，特别是分块预填充，有效地平衡了这两者，实现了更高的吞吐量和更低的延迟。 1. 问题背景：长序列服务的挑战在很多应用场景中，例如自然语言处理 (NLP) 中的文本生成、语音识别等，我们需要处理长度不定的输入序列。这些长序列给服务带来了以下挑战：内存带宽限制：预填充阶段需要将输入序列的嵌入 (Embedding) 加载到 GPU 内存，然后进行多次 Transformer 层的计算。对于长序列，Embedding 数据量巨大，频繁的内存访问会迅速耗尽内存带宽。计算负载不均：长序列的不同部分可能包含不同程度的复杂性。例如，在文本生成中，句子的开头部分可能需要更多的 attention 计算，而 …

继续阅读“Sarathi-Serve调度：通过分块预填充（Chunked Prefills）平衡计算与内存带宽的流水线”