nccl - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月26日

分布式训练中的集体通信（Collective Communication）：NCCL与Gloo的性能与适用场景对比

分布式训练中的集体通信：NCCL与Gloo的性能与适用场景对比大家好！今天我们来深入探讨分布式训练中至关重要的一个环节——集体通信。具体来说，我们将聚焦于两种主流的集体通信库：NCCL和Gloo，分析它们的性能特点、适用场景，并通过代码示例来加深理解。什么是集体通信？在分布式训练中，数据并行是一种常见的并行策略。它将数据集分割成多个部分，分配给不同的计算节点（通常是GPU或CPU）。每个节点使用自己的数据子集进行模型训练，然后需要进行节点间的信息交换，才能保证所有节点上的模型参数保持一致，最终收敛到全局最优解。集体通信就是指一组进程（例如，多个GPU）参与的数据交换操作。常见的集体通信操作包括： All-Reduce: 将所有节点上的数据进行规约（例如求和、取平均），并将结果广播给所有节点。这是深度学习中最常用的操作，用于同步梯度。 All-Gather: 将所有节点上的数据收集到每个节点上。 Broadcast: 将一个节点上的数据发送到所有其他节点。 Reduce: 将所有节点上的数据规约到单个节点。 Scatter: 将一个节点上的数据分割成多个部分，并将每个部分发送到不 …

继续阅读“分布式训练中的集体通信（Collective Communication）：NCCL与Gloo的性能与适用场景对比”

2025年11月23日

NCCL拓扑感知调度：根据物理机架与Switch结构优化Ring与Tree通信算法

NCCL拓扑感知调度：根据物理机架与Switch结构优化Ring与Tree通信算法大家好，今天我们来深入探讨NCCL（NVIDIA Collective Communication Library）中一项非常重要的优化技术：拓扑感知调度。NCCL作为深度学习领域最广泛使用的集合通信库之一，其性能直接影响着大规模分布式训练的效率。而拓扑感知调度，正是NCCL能够在不同硬件环境下，充分利用网络带宽，降低通信延迟的关键所在。我们将重点分析如何根据物理机架与Switch结构，优化Ring和Tree两种核心通信算法。 1. NCCL与集合通信算法简介 NCCL是一个针对多GPU、多节点环境优化的集合通信库，它提供了诸如AllReduce、AllGather、Broadcast等常用的集合通信操作。这些操作在分布式训练中扮演着至关重要的角色，例如，在数据并行训练中，AllReduce用于将所有GPU上的梯度进行聚合，然后分发回各个GPU，以保证模型参数的同步更新。常见的集合通信算法包括： Ring算法: 所有参与通信的进程（例如GPU）形成一个环状结构，数据在环上依次传递。 Tree算法: 所 …

继续阅读“NCCL拓扑感知调度：根据物理机架与Switch结构优化Ring与Tree通信算法”

2025年11月23日

推理引擎中的NCCL通信优化：在Tensor Parallelism中掩盖All-Reduce延迟的CUDA Graph应用

好的，没问题。推理引擎中的NCCL通信优化：在Tensor Parallelism中掩盖All-Reduce延迟的CUDA Graph应用大家好，今天我们来深入探讨一个在分布式深度学习推理中至关重要的话题：如何利用CUDA Graph来优化Tensor Parallelism中的NCCL通信，从而掩盖All-Reduce操作的延迟，提高推理性能。 1. Tensor Parallelism简介及挑战 Tensor Parallelism (TP) 是一种将模型张量分割到多个GPU上进行计算的并行策略。与Data Parallelism复制整个模型到每个GPU上不同，TP将模型的某些层（通常是线性层或卷积层）的张量沿某个维度分割，每个GPU只负责处理一部分张量。这样可以显著减少每个GPU上的内存占用，允许训练或推理更大的模型。例如，假设我们有一个线性层 Y = XW，其中 X 是输入张量，W 是权重张量，Y 是输出张量。在TP中，我们可以将 W 沿列维度分割成 W1, W2, …, Wn，分别分配到n个GPU上。每个GPU计算 Yi = X @ Wi，然后通过All-Reduc …

继续阅读“推理引擎中的NCCL通信优化：在Tensor Parallelism中掩盖All-Reduce延迟的CUDA Graph应用”

2025年11月20日

大模型训练集群如何利用 NCCL 优化多机多卡通信减少 AllReduce 性能损耗

大模型训练：NCCL 加速多机多卡 AllReduce 各位同学，大家好！今天我们来聊聊大模型训练中一个非常关键的环节：多机多卡的通信优化，特别是如何利用 NVIDIA Collective Communications Library (NCCL) 来减少 AllReduce 操作的性能损耗。AllReduce 是分布式训练中用于同步各个节点梯度信息的核心操作，它的效率直接决定了整个训练过程的快慢。 1. 大模型训练的挑战与 AllReduce 的重要性随着模型规模的日益增长（例如，千亿、万亿参数的模型），单张 GPU 已经无法满足训练需求。因此，我们需要将模型和数据分布到多台机器的多个 GPU 上进行并行训练。这种分布式训练方式带来了新的挑战：数据同步：各个 GPU 需要定期同步梯度信息，以保证模型的正确性。通信开销：多机之间的通信带宽往往成为瓶颈。计算与通信的平衡：如何高效地利用计算资源，同时最小化通信开销。在这些挑战中，AllReduce 操作是分布式训练中最常用的通信模式之一，它将所有 GPU 上的数据进行规约（例如求和、求平均），然后将结果广播给所有 GPU …

继续阅读“大模型训练集群如何利用 NCCL 优化多机多卡通信减少 AllReduce 性能损耗”