智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年11月23日

ZeRO++技术：通过量化权重梯度通信减少跨节点训练的带宽瓶颈

ZeRO++：量化权重梯度通信，突破跨节点训练带宽瓶颈各位同学，大家好！今天我们将深入探讨ZeRO++技术，一种旨在通过量化权重梯度通信来显著降低跨节点训练带宽需求的方法。在深度学习模型日益庞大的今天，分布式训练已经成为常态。然而，模型规模的增长也带来了通信量的爆炸式增长，这使得跨节点训练的带宽成为了一个主要的性能瓶颈。ZeRO++正是为了解决这个问题而诞生的。 1. 背景：分布式训练与带宽瓶颈在深入ZeRO++之前，我们首先回顾一下分布式训练的基本概念以及带宽瓶颈的产生原因。数据并行：这是最常见的分布式训练方式。每个节点都拥有完整的模型副本，但是处理不同的数据批次。在每个训练迭代中，每个节点计算其本地梯度，然后通过All-Reduce操作将梯度汇聚并平均，最终更新本地模型。模型并行：模型并行将模型分割到不同的节点上，每个节点负责模型的一部分。节点之间需要频繁通信，以传递中间激活值和梯度。流水线并行：流水线并行将模型分割成多个阶段（stage），并将不同的数据批次分配到不同的阶段并行处理。这可以提高吞吐量，但引入了流水线气泡和通信开销。无论是哪种并行方式，通信都是不可 …

继续阅读“ZeRO++技术：通过量化权重梯度通信减少跨节点训练的带宽瓶颈”

2025年11月23日

WSD（Warmup-Stable-Decay）学习率调度：相比余弦退火在持续预训练中的灾难性遗忘缓解

WSD（Warmup-Stable-Decay）学习率调度：相比余弦退火在持续预训练中的灾难性遗忘缓解大家好！今天我们来深入探讨一个在持续预训练中至关重要的话题：学习率调度策略，特别是WSD（Warmup-Stable-Decay）学习率调度，以及它如何缓解在持续预训练过程中使用余弦退火可能出现的灾难性遗忘问题。 1. 持续预训练与灾难性遗忘持续预训练（Continual Pre-training），也称为增量预训练（Incremental Pre-training），是指在一个已经预训练好的模型基础上，使用新的数据集进行进一步的训练，使其能够适应新的知识或任务。这种方法在实际应用中非常常见，例如，我们可能先用大规模通用文本数据集预训练一个语言模型，然后用特定领域的文本数据（例如医学文献、金融新闻）进行持续预训练，以提高其在该领域的表现。然而，持续预训练面临一个严峻的挑战：灾难性遗忘（Catastrophic Forgetting）。灾难性遗忘是指模型在学习新知识的同时，会迅速忘记之前学习到的知识。这在神经网络中是一个普遍现象，尤其是在使用梯度下降法进行训练时。想象一下，我们已经 …

继续阅读“WSD（Warmup-Stable-Decay）学习率调度：相比余弦退火在持续预训练中的灾难性遗忘缓解”

2025年11月23日

大Batch训练的泛化鸿沟：利用锐度感知最小化（SAM）优化器寻找平坦最小值的实践

好的，没问题。大Batch训练的泛化鸿沟：利用锐度感知最小化（SAM）优化器寻找平坦最小值各位同学，大家好。今天我们来讨论一个在深度学习中非常重要且具有挑战性的问题：大Batch训练的泛化鸿沟。我们将深入探讨这个问题，并重点介绍如何利用锐度感知最小化（SAM）优化器来缓解这个问题，寻找更平坦的最小值，从而提升模型的泛化能力。什么是泛化鸿沟？在深度学习中，我们通常使用梯度下降等优化算法来训练模型。目标是找到一个模型参数，使得模型在训练集上的损失函数最小化。然而，我们的最终目标不是仅仅在训练集上表现良好，而是希望模型能够泛化到未见过的数据上，也就是测试集上。泛化鸿沟是指模型在训练集上表现很好，但在测试集上表现不佳的现象。也就是说，模型过拟合了训练数据。使用大的Batch Size训练模型，虽然可以加速训练过程，但通常会导致更差的泛化性能，这就是所谓的大Batch训练的泛化鸿沟。具体来说，大Batch训练倾向于收敛到尖锐的最小值点，而小Batch训练更容易收敛到平坦的最小值点。尖锐最小值 vs. 平坦最小值尖锐最小值：损失函数在参数空间中呈现一个陡峭的峡谷状。即使参数稍微偏 …

继续阅读“大Batch训练的泛化鸿沟：利用锐度感知最小化（SAM）优化器寻找平坦最小值的实践”

2025年11月23日

训练中的Loss Spike（损失尖峰）：AdamW优化器中的Epsilon参数与梯度裁剪的微观影响

训练中的Loss Spike：AdamW优化器中的Epsilon参数与梯度裁剪的微观影响大家好！今天我们来深入探讨一个在深度学习模型训练过程中经常遇到的问题：Loss Spike，即损失函数突然出现大幅度上升的现象。虽然 Loss Spike 的原因有很多，但今天我们主要聚焦于两个与优化器密切相关的因素：AdamW优化器中的Epsilon参数，以及梯度裁剪。 1. Loss Spike 的常见原因与现象在训练深度学习模型时，理想情况下，损失函数应该随着训练的进行逐渐下降，最终趋于稳定。然而，现实往往并非如此。 Loss Spike 的出现打断了这一平稳下降的趋势，严重情况下甚至可能导致训练崩溃。 Loss Spike 的原因很多，可以大致分为以下几类：数据问题：数据质量差：错误标注、噪声数据等。数据分布变化（Data Shift）：训练集和测试集数据分布不一致，或者训练过程中数据分布发生变化。 Batch 过小： Batch Size 过小导致梯度估计不准确，容易出现 Loss Spike。模型问题：模型结构不稳定：某些模型结构对训练过程中的微小变化过于敏感。梯度 …

继续阅读“训练中的Loss Spike（损失尖峰）：AdamW优化器中的Epsilon参数与梯度裁剪的微观影响”

2025年11月23日

Gradient Checkpointing v2：利用选择性重计算（Selective Recomputation）平衡显存与算力

Gradient Checkpointing v2：利用选择性重计算平衡显存与算力大家好！今天我们要深入探讨一个在深度学习模型训练中至关重要的技术：Gradient Checkpointing，特别是它的第二代版本，Gradient Checkpointing v2，它通过选择性重计算来更精细地控制显存占用和计算开销之间的平衡。在训练大型深度学习模型时，显存通常成为一个瓶颈。反向传播需要前向传播过程中的激活值，以便计算梯度。传统的做法是将所有激活值都存储在显存中，但对于大型模型来说，这会迅速耗尽显存。Gradient Checkpointing (也称为激活重计算) 是一种通过牺牲一部分计算来换取显存的技术。它不在前向传播过程中存储所有激活值，而是在反向传播时重新计算它们。 1. Gradient Checkpointing 的基本原理为了理解 Gradient Checkpointing v2，我们首先回顾一下原始的 Gradient Checkpointing 的工作原理。假设我们的神经网络可以分解为几个连续的模块： y = model(x) = f_n(…f_2(f_ …

继续阅读“Gradient Checkpointing v2：利用选择性重计算（Selective Recomputation）平衡显存与算力”

2025年11月23日

MuP（Maximal Update Parametrization）：实现超参数从微型模型到巨型模型的零样本迁移

MuP（Maximal Update Parametrization）：实现超参数从微型模型到巨型模型的零样本迁移大家好，今天我们要深入探讨一个在深度学习模型训练领域非常有前景的技术：MuP（Maximal Update Parametrization），它旨在解决一个长期存在的难题——如何将微型模型上精心调优的超参数迁移到大型模型上，而无需重新进行繁琐的超参数搜索。 1. 超参数调优的困境在深度学习模型的训练过程中，超参数的选择至关重要，它们直接影响模型的收敛速度、泛化能力和最终性能。然而，超参数空间庞大且复杂，传统的超参数优化方法（如网格搜索、随机搜索、贝叶斯优化等）往往需要大量的计算资源和时间，尤其是对于大型模型而言，成本更是难以承受。一个常见的场景是，我们在小型模型上花费大量时间和精力找到了合适的超参数组合，但当模型规模扩大时，这些超参数往往不再适用，需要重新进行调优。这种重复性的工作不仅效率低下，也阻碍了我们快速迭代和部署大型模型。 2. MuP：一种新的参数化方法 MuP 是一种模型参数化的方法，它通过对模型参数进行特定的缩放，使得在不同规模的模型之间，某些关键的超参 …

继续阅读“MuP（Maximal Update Parametrization）：实现超参数从微型模型到巨型模型的零样本迁移”

2025年11月23日

FP8训练的稳定性挑战：E5M2与E4M3格式在梯度更新与前向传播中的混合精度策略

FP8训练的稳定性挑战：E5M2与E4M3格式在梯度更新与前向传播中的混合精度策略大家好，今天我们来深入探讨一下FP8训练，以及在使用E5M2和E4M3混合精度策略时所面临的稳定性挑战。FP8作为一种新兴的低精度浮点格式，旨在降低模型训练和推理的计算和存储成本，但同时也带来了新的问题，尤其是精度损失可能导致的训练不稳定。 FP8格式简介首先，我们来简单回顾一下FP8的两种主要格式：E5M2和E4M3。它们都遵循IEEE 754浮点数的结构，由符号位、指数位和尾数位组成，但位数分配不同。 E5M2: 5位指数，2位尾数。具有更高的动态范围，更适合表示较大数值。 E4M3: 4位指数，3位尾数。具有更高的精度，更适合表示较小数值。格式符号位指数位尾数位总位数 E5M2 1 5 2 8 E4M3 1 4 3 8 了解了这两种格式，我们就能更好地理解为什么在训练过程中需要采用混合精度策略。不同的层、操作，乃至不同的梯度，其数值范围和敏感度都不同，因此选择合适的FP8格式至关重要。混合精度训练的必要性 FP8的精度远低于FP16和FP32，直接使用FP8进行训练可能会导致梯度消失 …

继续阅读“FP8训练的稳定性挑战：E5M2与E4M3格式在梯度更新与前向传播中的混合精度策略”

2025年11月23日

无服务器推理（Serverless Inference）：在Scale-to-Zero场景下快照恢复与请求调度的挑战

无服务器推理：在Scale-to-Zero场景下快照恢复与请求调度的挑战各位同学，大家好！今天我们来聊聊无服务器推理，尤其是在Scale-to-Zero场景下，快照恢复和请求调度所面临的挑战。无服务器推理，简单来说，就是将机器学习模型的推理过程部署在无服务器计算平台上。它最大的优势在于按需付费、自动伸缩，以及无需管理底层基础设施。 Scale-to-Zero是无服务器架构的一个关键特性，意味着当没有请求时，系统可以自动缩减到零实例，从而节省成本。然而，这也带来了一个新的挑战：当有新的请求到达时，系统需要冷启动，这会导致显著的延迟。为了解决这个问题，快照恢复和智能请求调度成为了关键的技术手段。 1. 无服务器推理架构概述首先，我们回顾一下典型的无服务器推理架构。 graph LR Client –> API_Gateway[API Gateway]; API_Gateway –> Request_Queue[请求队列]; Request_Queue –> Scheduler[调度器]; Scheduler –> Inference_Engine[推理引 …

继续阅读“无服务器推理（Serverless Inference）：在Scale-to-Zero场景下快照恢复与请求调度的挑战”

2025年11月23日

大模型冷启动优化：利用NVMe SSD与RDMA实现TB级模型权重的秒级加载

大模型冷启动优化：利用NVMe SSD与RDMA实现TB级模型权重的秒级加载大家好，今天我们将探讨如何利用NVMe SSD和RDMA技术来优化大模型的冷启动过程，目标是实现TB级模型权重的秒级加载。这对于快速响应请求、缩短服务中断时间以及提高整体系统效率至关重要。冷启动的挑战与优化目标大模型，尤其是参数量达到TB级别的模型，在冷启动时面临着巨大的挑战。模型权重通常存储在磁盘上，传统的机械硬盘读取速度慢，严重影响启动时间。即使使用SSD，传统的IO操作也受到CPU的限制，无法充分发挥存储设备的性能。我们的优化目标是：减少冷启动时间：从模型权重读取到模型可用状态的时间尽可能短。充分利用硬件资源：最大化NVMe SSD的吞吐量和RDMA网络的带宽。降低CPU开销：减少CPU在数据传输过程中的参与，释放CPU资源用于模型推理。 NVMe SSD的优势与局限 NVMe SSD相比传统的SATA SSD，拥有更高的吞吐量和更低的延迟，这是因为： NVMe协议：专门为高性能存储设计，减少了协议开销。 PCIe接口：直接连接到CPU，提供更大的带宽。并行性：支持更多的命令队 …

继续阅读“大模型冷启动优化：利用NVMe SSD与RDMA实现TB级模型权重的秒级加载”

2025年11月23日

DistServe架构：自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩

DistServe架构：自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩大家好，今天我们来探讨一个在深度学习模型服务中非常关键且具有挑战性的问题：如何构建一个能够自动分析流量特征并动态调整 Prefill/Decode 实例比例的弹性伸缩 DistServe 架构。在许多深度学习模型服务场景中，特别是生成式模型（如大型语言模型），推理过程通常可以分解为两个主要阶段： Prefill 阶段 (也称为Prompt Processing)：此阶段处理输入提示 (Prompt)，计算初始状态和上下文信息。Prefill 阶段的计算量通常与输入序列的长度成正比，但它只需要执行一次。 Decode 阶段 (也称为Token Generation)：此阶段基于 Prefill 阶段的输出，迭代地生成新的 token。每个 token 的生成都依赖于之前生成的 token，因此 Decode 阶段是一个自回归过程。Decode 阶段的计算量与生成的 token 数量成正比。这两个阶段的计算资源需求是不同的，并且在不同的负载下，Prefill 和 Decode 的比例也 …

继续阅读“DistServe架构：自动分析流量特征并动态调整Prefill/Decode实例比例的弹性伸缩”