智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年11月23日

MuP（Maximal Update Parametrization）：实现超参数从微型模型到巨型模型的零样本迁移

MuP（Maximal Update Parametrization）：实现超参数从微型模型到巨型模型的零样本迁移大家好，今天我们要深入探讨一个在深度学习模型训练领域非常有前景的技术：MuP（Maximal Update Parametrization），它旨在解决一个长期存在的难题——如何将微型模型上精心调优的超参数迁移到大型模型上，而无需重新进行繁琐的超参数搜索。 1. 超参数调优的困境在深度学习模型的训练过程中，超参数的选择至关重要，它们直接影响模型的收敛速度、泛化能力和最终性能。然而，超参数空间庞大且复杂，传统的超参数优化方法（如网格搜索、随机搜索、贝叶斯优化等）往往需要大量的计算资源和时间，尤其是对于大型模型而言，成本更是难以承受。一个常见的场景是，我们在小型模型上花费大量时间和精力找到了合适的超参数组合，但当模型规模扩大时，这些超参数往往不再适用，需要重新进行调优。这种重复性的工作不仅效率低下，也阻碍了我们快速迭代和部署大型模型。 2. MuP：一种新的参数化方法 MuP 是一种模型参数化的方法，它通过对模型参数进行特定的缩放，使得在不同规模的模型之间，某些关键的超参 …

继续阅读“MuP（Maximal Update Parametrization）：实现超参数从微型模型到巨型模型的零样本迁移”

2025年11月23日

FP8训练的稳定性挑战：E5M2与E4M3格式在梯度更新与前向传播中的混合精度策略

FP8训练的稳定性挑战：E5M2与E4M3格式在梯度更新与前向传播中的混合精度策略大家好，今天我们来深入探讨一下FP8训练，以及在使用E5M2和E4M3混合精度策略时所面临的稳定性挑战。FP8作为一种新兴的低精度浮点格式，旨在降低模型训练和推理的计算和存储成本，但同时也带来了新的问题，尤其是精度损失可能导致的训练不稳定。 FP8格式简介首先，我们来简单回顾一下FP8的两种主要格式：E5M2和E4M3。它们都遵循IEEE 754浮点数的结构，由符号位、指数位和尾数位组成，但位数分配不同。 E5M2: 5位指数，2位尾数。具有更高的动态范围，更适合表示较大数值。 E4M3: 4位指数，3位尾数。具有更高的精度，更适合表示较小数值。格式符号位指数位尾数位总位数 E5M2 1 5 2 8 E4M3 1 4 3 8 了解了这两种格式，我们就能更好地理解为什么在训练过程中需要采用混合精度策略。不同的层、操作，乃至不同的梯度，其数值范围和敏感度都不同，因此选择合适的FP8格式至关重要。混合精度训练的必要性 FP8的精度远低于FP16和FP32，直接使用FP8进行训练可能会导致梯度消失 …

继续阅读“FP8训练的稳定性挑战：E5M2与E4M3格式在梯度更新与前向传播中的混合精度策略”

2025年11月23日

无服务器推理（Serverless Inference）：在Scale-to-Zero场景下快照恢复与请求调度的挑战

无服务器推理：在Scale-to-Zero场景下快照恢复与请求调度的挑战各位同学，大家好！今天我们来聊聊无服务器推理，尤其是在Scale-to-Zero场景下，快照恢复和请求调度所面临的挑战。无服务器推理，简单来说，就是将机器学习模型的推理过程部署在无服务器计算平台上。它最大的优势在于按需付费、自动伸缩，以及无需管理底层基础设施。 Scale-to-Zero是无服务器架构的一个关键特性，意味着当没有请求时，系统可以自动缩减到零实例，从而节省成本。然而，这也带来了一个新的挑战：当有新的请求到达时，系统需要冷启动，这会导致显著的延迟。为了解决这个问题，快照恢复和智能请求调度成为了关键的技术手段。 1. 无服务器推理架构概述首先，我们回顾一下典型的无服务器推理架构。 graph LR Client –> API_Gateway[API Gateway]; API_Gateway –> Request_Queue[请求队列]; Request_Queue –> Scheduler[调度器]; Scheduler –> Inference_Engine[推理引 …

继续阅读“无服务器推理（Serverless Inference）：在Scale-to-Zero场景下快照恢复与请求调度的挑战”

2025年11月23日

大模型冷启动优化：利用NVMe SSD与RDMA实现TB级模型权重的秒级加载

大模型冷启动优化：利用NVMe SSD与RDMA实现TB级模型权重的秒级加载大家好，今天我们将探讨如何利用NVMe SSD和RDMA技术来优化大模型的冷启动过程，目标是实现TB级模型权重的秒级加载。这对于快速响应请求、缩短服务中断时间以及提高整体系统效率至关重要。冷启动的挑战与优化目标大模型，尤其是参数量达到TB级别的模型，在冷启动时面临着巨大的挑战。模型权重通常存储在磁盘上，传统的机械硬盘读取速度慢，严重影响启动时间。即使使用SSD，传统的IO操作也受到CPU的限制，无法充分发挥存储设备的性能。我们的优化目标是：减少冷启动时间：从模型权重读取到模型可用状态的时间尽可能短。充分利用硬件资源：最大化NVMe SSD的吞吐量和RDMA网络的带宽。降低CPU开销：减少CPU在数据传输过程中的参与，释放CPU资源用于模型推理。 NVMe SSD的优势与局限 NVMe SSD相比传统的SATA SSD，拥有更高的吞吐量和更低的延迟，这是因为： NVMe协议：专门为高性能存储设计，减少了协议开销。 PCIe接口：直接连接到CPU，提供更大的带宽。并行性：支持更多的命令队 …

继续阅读“大模型冷启动优化：利用NVMe SSD与RDMA实现TB级模型权重的秒级加载”

2025年11月23日

DistServe架构：自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩

DistServe架构：自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩大家好，今天我们来探讨一个在深度学习模型服务中非常关键且具有挑战性的问题：如何构建一个能够自动分析流量特征并动态调整 Prefill/Decode 实例比例的弹性伸缩 DistServe 架构。在许多深度学习模型服务场景中，特别是生成式模型（如大型语言模型），推理过程通常可以分解为两个主要阶段： Prefill 阶段 (也称为Prompt Processing)：此阶段处理输入提示 (Prompt)，计算初始状态和上下文信息。Prefill 阶段的计算量通常与输入序列的长度成正比，但它只需要执行一次。 Decode 阶段 (也称为Token Generation)：此阶段基于 Prefill 阶段的输出，迭代地生成新的 token。每个 token 的生成都依赖于之前生成的 token，因此 Decode 阶段是一个自回归过程。Decode 阶段的计算量与生成的 token 数量成正比。这两个阶段的计算资源需求是不同的，并且在不同的负载下，Prefill 和 Decode 的比例也 …

继续阅读“DistServe架构：自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩”

2025年11月23日

SGLang运行时：通过RadixAttention实现复杂Prompt模式下的KV Cache极致复用

SGLang 运行时：通过 RadixAttention 实现复杂 Prompt 模式下的 KV Cache 极致复用大家好！今天我们来深入探讨 SGLang 运行时中一项关键的优化技术：基于 RadixAttention 的 KV Cache 极致复用。在处理复杂 Prompt 模式，尤其是涉及到循环、条件分支等控制流的 Prompt 时，如何高效地利用 KV Cache，减少计算冗余，是提升 LLM 服务性能的关键。 1. KV Cache 的基本概念与挑战在深入 RadixAttention 之前，我们先回顾一下 KV Cache 的基本概念。Transformer 模型的核心是自注意力机制，在解码过程中，每个 token 的生成都需要访问之前所有 token 的 Key (K) 和 Value (V) 向量。KV Cache 就是将这些 K 和 V 向量缓存起来，避免重复计算，从而加速推理过程。然而，传统的 KV Cache 在处理复杂 Prompt 模式时会遇到以下挑战：控制流复杂性：循环、条件分支等控制流会导致 Prompt 的执行路径不确定，传统的线性 KV C …

继续阅读“SGLang运行时：通过RadixAttention实现复杂Prompt模式下的KV Cache极致复用”

2025年11月23日

TensorRT-LLM深度优化：利用FMHA（Fused Multi-Head Attention）内核加速Hopper架构推理

TensorRT-LLM深度优化：利用FMHA（Fused Multi-Head Attention）内核加速Hopper架构推理大家好，今天我们来深入探讨如何利用Fused Multi-Head Attention（FMHA）内核来优化TensorRT-LLM在NVIDIA Hopper架构上的推理性能。大型语言模型（LLM）的推理速度对于用户体验至关重要，而Attention机制又是LLM中最耗时的部分之一。通过融合和优化Attention计算，我们可以显著提高推理速度。 1. LLM推理挑战与Attention机制瓶颈 LLM的推理过程涉及到大量的矩阵乘法和数据传输，尤其是在Attention机制中。传统的Attention计算通常包含以下步骤：线性变换: 将输入序列 X 通过三个线性层得到 Query Q，Key K，Value V。 Attention Score计算: 计算 Q 和 K 的相似度，得到Attention Scores。 Softmax: 对Attention Scores进行Softmax归一化。加权求和: 将Softmax后的Attention Sc …

继续阅读“TensorRT-LLM深度优化：利用FMHA（Fused Multi-Head Attention）内核加速Hopper架构推理”

2025年11月23日

Lookahead Allocator：在vLLM中预测未来KV Cache使用量以减少显存碎片与再分配开销

Lookahead Allocator：vLLM中预测未来KV Cache使用量以减少显存碎片与再分配开销大家好，今天我们来深入探讨 vLLM 中的 Lookahead Allocator，它是一种巧妙的内存管理机制，旨在预测未来 KV Cache 的使用量，从而显著减少显存碎片和再分配开销。在高性能的大语言模型（LLM）推理服务中，KV Cache 的高效管理至关重要，直接影响吞吐量和延迟。Lookahead Allocator 正是 vLLM 为了解决这一问题而提出的解决方案。 1. KV Cache 与显存管理挑战首先，我们需要理解 KV Cache 的作用以及它带来的显存管理挑战。在 Transformer 模型中，KV Cache 用于存储先前层的 Key 和 Value 张量，以便在自回归解码过程中加速计算。随着生成文本的长度增加，KV Cache 的大小也会线性增长。传统的 KV Cache 管理策略，例如动态分配和释放，虽然简单，但容易导致显存碎片化。频繁的分配和释放操作会在显存中留下许多不连续的小块空闲空间，当需要分配一大块连续显存时，即使总的空闲空间足够，也可 …

继续阅读“Lookahead Allocator：在vLLM中预测未来KV Cache使用量以减少显存碎片与再分配开销”

2025年11月23日

Speculative Streaming：在流式传输中利用Draft Model并行生成并验证多个Token

Speculative Streaming：在流式传输中利用Draft Model并行生成并验证多个Token 大家好，今天我们要讨论一个令人兴奋的话题：Speculative Streaming。它旨在通过并行生成和验证多个token，来提升流式传输场景下大型语言模型（LLM）的推理速度。这个技术的核心思想是利用一个较小的、速度更快的“Draft Model”（也称为“提案模型”或“辅助模型”）来并行生成多个候选token，然后使用更大的、更准确的“Verification Model”（验证模型，通常就是我们想要使用的LLM）来验证这些候选token，从而在保证生成质量的前提下加速推理过程。 1. 背景：流式传输的挑战与机遇在深入Speculative Streaming之前，我们首先需要了解流式传输（Streaming）的背景以及它带来的挑战。流式传输指的是模型在生成token时，可以立即将已生成的token输出，而不需要等待整个序列生成完毕。这种方式对于实时应用，例如对话机器人、实时翻译、代码补全等，至关重要。然而，流式传输也面临着一些挑战：延迟问题：传统的自回归生成方 …

继续阅读“Speculative Streaming：在流式传输中利用Draft Model并行生成并验证多个Token”

2025年11月23日

Cascade Inference（级联推理）：利用小模型过滤简单Query并路由困难任务至大模型的网关设计

Cascade Inference：小模型过滤与大模型路由的网关设计各位听众，大家好。今天，我将为大家分享一种优化大型语言模型（LLM）推理效率的技术——Cascade Inference，也就是级联推理。这种方法通过构建一个由小模型和大模型组成的推理流水线，利用小模型快速过滤简单 Query，并将复杂任务路由到能力更强的大模型，从而在保证性能的前提下显著降低推理成本。 1. 背景与动机随着 LLM 的能力日益增强，它们在各个领域的应用也越来越广泛。然而，LLM 的计算成本非常高昂，这限制了它们的大规模部署。尤其是在实际应用中，大量的 Query 其实非常简单，完全不需要大模型来处理。例如，一个情感分析任务，如果输入文本明显是积极或消极的，那么一个小模型就足以给出准确的判断。如果所有 Query 都交给大模型处理，无疑是一种资源的浪费。因此，我们需要一种机制，能够根据 Query 的复杂程度，智能地选择合适的模型进行推理。这就是 Cascade Inference 的核心思想。 2. 级联推理的基本原理 Cascade Inference 的基本原理是将推理过程分解成多个阶段，每 …

继续阅读“Cascade Inference（级联推理）：利用小模型过滤简单Query并路由困难任务至大模型的网关设计”