DistServe架构:自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩

DistServe架构:自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩 大家好,今天我们来探讨一个在深度学习模型服务中非常关键且具有挑战性的问题:如何构建一个能够自动分析流量特征并动态调整 Prefill/Decode 实例比例的弹性伸缩 DistServe 架构。 在许多深度学习模型服务场景中,特别是生成式模型(如大型语言模型),推理过程通常可以分解为两个主要阶段: Prefill 阶段 (也称为Prompt Processing): 此阶段处理输入提示 (Prompt),计算初始状态和上下文信息。Prefill 阶段的计算量通常与输入序列的长度成正比,但它只需要执行一次。 Decode 阶段 (也称为Token Generation): 此阶段基于 Prefill 阶段的输出,迭代地生成新的 token。每个 token 的生成都依赖于之前生成的 token,因此 Decode 阶段是一个自回归过程。Decode 阶段的计算量与生成的 token 数量成正比。 这两个阶段的计算资源需求是不同的,并且在不同的负载下,Prefill 和 Decode 的比例也 …