parallelism - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2026年1月2日

什么是 ‘Workflow Parallelism’？在 LangGraph 中利用计算图拓扑结构自动榨干 CPU 的所有线程

引言：工作流并行性与现代计算挑战在当今高度复杂的软件系统，特别是人工智能、大数据处理和实时决策系统中，我们经常面临处理一系列相互关联或独立任务的挑战。传统的串行执行方式往往成为性能瓶颈，导致资源利用率低下和响应时间延长。为了突破这些局限，工作流并行性 (Workflow Parallelism) 应运而生，成为优化复杂计算流程的关键技术。工作流并行性，顾名思义，是指在一个由多个任务组成的工作流中，识别并同时执行那些没有相互依赖关系的任务。这与数据并行性 (Data Parallelism) 有本质区别。数据并行性侧重于将同一操作应用于大型数据集的不同子集，例如，MapReduce 模型中的map阶段，或者在神经网络训练中将一批数据分成多个小批次并行处理。而工作流并行性则关注不同操作、不同任务之间的并发执行，即使这些任务处理的数据完全不同。想象一个复杂的AI代理，它可能需要同时进行以下操作：从多个数据源获取信息、调用不同的工具（如搜索、计算器、代码解释器）、对输入进行多角度分析、甚至预生成多个候选响应。这些任务中，有些可以独立进行，有些则有明确的先后依赖。如果能并行执行独立的任务 …

继续阅读“什么是 ‘Workflow Parallelism’？在 LangGraph 中利用计算图拓扑结构自动榨干 CPU 的所有线程”

2025年11月23日

Expert Parallelism（专家并行）：在分布式集群中通过All-to-All通信路由Token的实现

Expert Parallelism: All-to-All Token Routing in Distributed Clusters 大家好，今天我们要深入探讨一个在分布式集群中实现高效并行计算的关键技术：All-to-All通信，特别是如何使用它来路由Token。 1. 引言：Token与并行计算在并行计算中，Token通常代表着某种控制信号或者数据单元，它在不同的计算节点之间传递，驱动计算流程。例如，它可以表示：数据依赖关系：某个任务只有在接收到特定Token后才能开始执行。资源可用性：一个Token代表某个资源（如锁、内存）的可用状态。任务调度：Token用于在节点之间分配任务。状态同步：Token用于在节点之间同步全局状态信息。高效的Token路由是实现高性能并行计算的关键。如果Token传递延迟过高，将会严重影响整个系统的性能。而All-to-All通信是一种非常有用的模式，可以实现节点间的高效数据交换，进而优化Token路由。 2. All-to-All通信：原理与适用场景 All-to-All通信，顾名思义，是指集群中的每一个节点都需要向其他所有节点发送数 …

继续阅读“Expert Parallelism（专家并行）：在分布式集群中通过All-to-All通信路由Token的实现”

2025年11月23日

推理引擎中的NCCL通信优化：在Tensor Parallelism中掩盖All-Reduce延迟的CUDA Graph应用

好的，没问题。推理引擎中的NCCL通信优化：在Tensor Parallelism中掩盖All-Reduce延迟的CUDA Graph应用大家好，今天我们来深入探讨一个在分布式深度学习推理中至关重要的话题：如何利用CUDA Graph来优化Tensor Parallelism中的NCCL通信，从而掩盖All-Reduce操作的延迟，提高推理性能。 1. Tensor Parallelism简介及挑战 Tensor Parallelism (TP) 是一种将模型张量分割到多个GPU上进行计算的并行策略。与Data Parallelism复制整个模型到每个GPU上不同，TP将模型的某些层（通常是线性层或卷积层）的张量沿某个维度分割，每个GPU只负责处理一部分张量。这样可以显著减少每个GPU上的内存占用，允许训练或推理更大的模型。例如，假设我们有一个线性层 Y = XW，其中 X 是输入张量，W 是权重张量，Y 是输出张量。在TP中，我们可以将 W 沿列维度分割成 W1, W2, …, Wn，分别分配到n个GPU上。每个GPU计算 Yi = X @ Wi，然后通过All-Reduc …

继续阅读“推理引擎中的NCCL通信优化：在Tensor Parallelism中掩盖All-Reduce延迟的CUDA Graph应用”

2025年11月23日

Pipeline Parallelism中的1F1B与Interleaved 1F1B调度：流水线气泡的数学分析

Pipeline Parallelism中的1F1B与Interleaved 1F1B调度：流水线气泡的数学分析大家好，今天我们来深入探讨Pipeline Parallelism中两种重要的调度策略：1F1B (One Forward, One Backward) 和 Interleaved 1F1B，并对它们产生的流水线气泡进行数学分析。Pipeline Parallelism是一种将深度学习模型分割成多个阶段（Stage），并在多个设备（例如GPU）上并行执行的并行化技术。通过将一个mini-batch数据分割成更小的micro-batches，每个设备负责流水线中的一个阶段，从而实现并行计算。然而，由于数据依赖性和流水线启动/结束阶段的空闲，不可避免地会产生流水线气泡，降低整体效率。理解和最小化这些气泡对于最大化Pipeline Parallelism的性能至关重要。 1. Pipeline Parallelism基础在深入1F1B和Interleaved 1F1B之前，我们先简单回顾一下Pipeline Parallelism的基本概念。 Stage: 模型的一部分，通常包 …

继续阅读“Pipeline Parallelism中的1F1B与Interleaved 1F1B调度：流水线气泡的数学分析”

2025年11月22日

Pipeline Parallelism中的气泡问题：1F1B调度策略与交错式（Interleaved）流水线优化

好的，以下是一篇关于流水线并行中的气泡问题，以及1F1B调度策略与交错式流水线优化的技术文章，以讲座模式呈现。流水线并行中的气泡问题：1F1B调度策略与交错式流水线优化大家好，今天我们来探讨流水线并行中的一个核心问题：气泡（Bubble）。以及如何通过1F1B调度策略和交错式流水线来优化性能。什么是流水线并行？在深入气泡问题之前，我们需要了解什么是流水线并行。想象一个汽车生产线，不同的工位负责不同的任务（例如，安装发动机、喷漆、安装轮胎）。每辆汽车依次通过每个工位，每个工位同时处理不同的汽车。这就是流水线并行的基本思想。在机器学习中，我们可以将一个模型训练过程分解为多个阶段（例如，数据加载、前向传播、梯度计算、反向传播、参数更新），每个阶段运行在不同的设备（例如，不同的GPU）上。数据在这些设备之间流动，形成一个流水线。流水线并行的优势流水线并行可以显著提高模型的吞吐量。如果每个阶段的耗时相同，那么总的训练时间将接近于最慢阶段的耗时。这比将所有阶段放在单个设备上顺序执行要快得多。气泡的出现与影响然而，流水线并行并非完美无缺。一个主要的问题就是“气泡”。气泡是指流水线中 …

继续阅读“Pipeline Parallelism中的气泡问题：1F1B调度策略与交错式（Interleaved）流水线优化”