Batched Speculative Decoding:在Batch推理场景下应用投机采样的复杂调度 大家好,今天我们来深入探讨一个前沿的LLM推理加速技术——Batched Speculative Decoding。投机采样 (Speculative Decoding) 已经成为加速LLM推理的热门方法,它通过引入一个小的“草稿模型 (Draft Model)”来预测多个后续token,然后用一个大的“目标模型 (Target Model)”来并行验证这些预测。如果预测正确,则可以显著减少Target Model的调用次数,从而加速推理。 然而,在实际应用中,尤其是在高吞吐量的Batch推理场景下,如何高效地调度和管理这些投机采样过程,以最大化加速效果,是一个具有挑战性的问题。这就是我们要讨论的重点:Batched Speculative Decoding中的复杂调度。 1. 投机采样 (Speculative Decoding) 基础回顾 为了更好地理解Batched Speculative Decoding,我们首先回顾一下其核心思想。传统的自回归解码过程是串行的,每次只能生成 …