Speculative Streaming:在流式传输中利用Draft Model并行生成并验证多个Token 大家好,今天我们要讨论一个令人兴奋的话题:Speculative Streaming。它旨在通过并行生成和验证多个token,来提升流式传输场景下大型语言模型(LLM)的推理速度。这个技术的核心思想是利用一个较小的、速度更快的“Draft Model”(也称为“提案模型”或“辅助模型”)来并行生成多个候选token,然后使用更大的、更准确的“Verification Model”(验证模型,通常就是我们想要使用的LLM)来验证这些候选token,从而在保证生成质量的前提下加速推理过程。 1. 背景:流式传输的挑战与机遇 在深入Speculative Streaming之前,我们首先需要了解流式传输(Streaming)的背景以及它带来的挑战。流式传输指的是模型在生成token时,可以立即将已生成的token输出,而不需要等待整个序列生成完毕。这种方式对于实时应用,例如对话机器人、实时翻译、代码补全等,至关重要。 然而,流式传输也面临着一些挑战: 延迟问题: 传统的自回归生成方 …
继续阅读“Speculative Streaming:在流式传输中利用Draft Model并行生成并验证多个Token”