智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座 -

2025年11月23日

Expert Parallelism（专家并行）：在分布式集群中通过All-to-All通信路由Token的实现

Expert Parallelism: All-to-All Token Routing in Distributed Clusters 大家好，今天我们要深入探讨一个在分布式集群中实现高效并行计算的关键技术：All-to-All通信，特别是如何使用它来路由Token。 1. 引言：Token与并行计算在并行计算中，Token通常代表着某种控制信号或者数据单元，它在不同的计算节点之间传递，驱动计算流程。例如，它可以表示：数据依赖关系：某个任务只有在接收到特定Token后才能开始执行。资源可用性：一个Token代表某个资源（如锁、内存）的可用状态。任务调度：Token用于在节点之间分配任务。状态同步：Token用于在节点之间同步全局状态信息。高效的Token路由是实现高性能并行计算的关键。如果Token传递延迟过高，将会严重影响整个系统的性能。而All-to-All通信是一种非常有用的模式，可以实现节点间的高效数据交换，进而优化Token路由。 2. All-to-All通信：原理与适用场景 All-to-All通信，顾名思义，是指集群中的每一个节点都需要向其他所有节点发送数 …

继续阅读“Expert Parallelism（专家并行）：在分布式集群中通过All-to-All通信路由Token的实现”

2025年11月23日

MoE专家的负载均衡损失（Load Balancing Loss）：Auxiliary Loss权重对训练稳定性的影响

MoE 专家负载均衡损失：Auxiliary Loss 权重对训练稳定性的影响大家好，今天我们来深入探讨一下混合专家模型 (Mixture-of-Experts, MoE) 中一个关键的训练技巧：负载均衡损失 (Load Balancing Loss)。具体来说，我们将聚焦于辅助损失 (Auxiliary Loss) 的权重对训练稳定性的影响。MoE 模型以其能够有效扩展模型容量而著称，但其训练的复杂性也不容忽视。负载均衡损失是保证 MoE 模型有效性的重要因素，而辅助损失权重的选择，直接关系到模型能否稳定收敛，以及最终的性能表现。 1. MoE 模型架构概览首先，我们简要回顾一下 MoE 模型的架构。一个典型的 MoE 层由以下几个核心组件构成： Experts (专家): 这是一些独立的神经网络模块，例如前馈网络 (Feed-Forward Network, FFN)。每个专家负责处理输入数据的一个特定子集。 Gate (门控网络): 门控网络接收输入数据，并决定将数据路由到哪个或哪些专家。它输出一个概率分布，表示每个专家被选中的概率。 Combination Function …

继续阅读“MoE专家的负载均衡损失（Load Balancing Loss）：Auxiliary Loss权重对训练稳定性的影响”

2025年11月23日

对齐税（Alignment Tax）的量化：RLHF对代码生成与逻辑推理能力的负面迁移分析

对齐税的量化：RLHF对代码生成与逻辑推理能力的负迁移分析各位听众，今天我将为大家带来一场关于大型语言模型（LLM）的讲座，主题是“对齐税的量化：RLHF对代码生成与逻辑推理能力的负迁移分析”。我们将深入探讨强化学习结合人类反馈（RLHF）这种常用的LLM对齐方法，在提升模型特定能力（例如对话流畅性、安全性）的同时，可能对代码生成和逻辑推理等其他关键能力造成的潜在损害，即所谓的“对齐税”。 1. 引言：LLM的崛起与对齐的挑战近年来，大型语言模型在自然语言处理领域取得了显著的进展。从GPT系列、LLaMA系列到各种开源模型，LLM在文本生成、机器翻译、问答系统等任务中展现出令人印象深刻的能力。然而，这些模型在未经适当的对齐训练前，往往存在输出有害信息、产生不准确的结论、或缺乏逻辑一致性等问题。为了解决这些问题，研究人员开发了多种对齐技术，其中RLHF因其能够有效利用人类反馈来塑造模型的行为，成为了最流行的对齐方法之一。RLHF的核心思想是：首先，使用人类标注的数据训练一个奖励模型，该模型能够评估LLM生成的文本的质量和安全性。然后，使用强化学习算法，根据奖励模型的反馈来微调LL …

继续阅读“对齐税（Alignment Tax）的量化：RLHF对代码生成与逻辑推理能力的负面迁移分析”

2025年11月23日

SFT数据中的模态坍塌（Mode Collapse）：监督微调如何导致模型丧失预训练的多样性

好的，没问题。监督微调与模态坍塌：丧失预训练多样性的风险各位同学，大家好。今天我们来探讨一个在监督微调（Supervised Fine-Tuning，SFT）中经常被忽视，但却至关重要的问题：模态坍塌（Mode Collapse）。我们将深入理解SFT如何导致模型丧失预训练阶段所拥有的多样性，并探讨其背后的原因、影响以及可能的缓解策略。什么是模态坍塌？在深入讨论SFT中的模态坍塌之前，我们首先需要明确模态（Mode）的概念。在机器学习，特别是生成模型中，模态指的是数据分布中的一个峰值，或者说是一个常见的数据模式。例如，如果我们训练一个生成图像的模型，一个模态可能代表着“猫”的图像，另一个模态可能代表着“狗”的图像。一个好的生成模型应该能够覆盖数据分布中的多个模态，生成多样化的结果。模态坍塌指的是生成模型仅仅学习到数据分布中的少数几个模态，而忽略了其他模态。这意味着模型生成的样本缺乏多样性，往往集中在几个常见的模式上。例如，如果一个生成图像的模型发生了模态坍塌，它可能只能生成几种特定姿势或特定品种的猫的图像，而无法生成其他类型的猫，更不用说狗或其他动物的图像了。监督微调（SF …

继续阅读“SFT数据中的模态坍塌（Mode Collapse）：监督微调如何导致模型丧失预训练的多样性”

2025年11月23日

多目标RLHF：在有用性、安全性与诚实性之间寻找帕累托最优解的标量化技术

多目标RLHF：在有用性、安全性与诚实性之间寻找帕累托最优解的标量化技术大家好，今天我们来深入探讨一个在大型语言模型（LLM）对齐领域至关重要的话题：多目标强化学习与人类反馈（RLHF），以及如何通过标量化技术在有用性、安全性与诚实性这三个关键目标之间找到帕累托最优解。 1. 引言：为什么需要多目标RLHF？传统上，强化学习的目标是最大化单个奖励函数。但在LLM的上下文中，我们期望模型同时表现出多种期望的特性，例如：有用性（Helpfulness）：模型能够准确、完整地回答用户的问题，并提供有价值的信息。安全性（Safety）：模型不应生成有害、歧视性、煽动仇恨或违反法律的内容。诚实性（Harmlessness/Truthfulness）：模型应避免捏造事实、误导用户或传播不准确的信息。简单地将这些目标组合成一个单一的奖励函数通常会导致次优的结果。例如，为了追求安全性，模型可能会变得过于谨慎，从而牺牲了有用性。为了追求有用性，模型可能会忽略安全性，生成有害内容。因此，我们需要一种能够平衡这些相互冲突的目标的方法。这就是多目标RLHF发挥作用的地方。 2. 多目标RLH …

继续阅读“多目标RLHF：在有用性、安全性与诚实性之间寻找帕累托最优解的标量化技术”

2025年11月23日

Nash Learning from Human Feedback：将对齐问题建模为纳什均衡寻找的博弈过程

好的，下面是一篇关于“Nash Learning from Human Feedback：将对齐问题建模为纳什均衡寻找的博弈过程”的讲座风格的技术文章。 Nash Learning from Human Feedback：博弈视角下的对齐问题大家好，今天我们来探讨一个非常有趣且重要的课题：如何利用博弈论的视角，特别是纳什均衡的概念，来解决大型语言模型（LLM）的对齐问题。传统的对齐方法往往依赖于大量的人工标注数据和复杂的强化学习训练，而我们将探索一种更具潜力的新方法，它将对齐问题视为一个多方博弈，并通过寻找纳什均衡来优化模型的行为。 1. 对齐问题：LLM的伦理困境大型语言模型的强大能力毋庸置疑，但随之而来的问题也日益凸显，其中最核心的就是对齐问题。简单来说，对齐问题指的是如何确保LLM的行为符合人类的价值观、目标和意图。一个不对齐的模型可能会产生以下问题：生成有害内容：包含歧视、偏见、仇恨言论的内容。提供虚假信息：捏造事实、散布谣言。不诚实的行为：欺骗用户、隐瞒信息。不安全的行为：给出不安全的建议，例如制造武器的方法。传统的对齐方法，如基于人类反馈的强化学习（R …

继续阅读“Nash Learning from Human Feedback：将对齐问题建模为纳什均衡寻找的博弈过程”

2025年11月23日

DPO算法的梯度分析：偏好概率差对梯度幅度的加权机制及其隐式正则化作用

DPO算法的梯度分析：偏好概率差对梯度幅度的加权机制及其隐式正则化作用大家好，今天我们来深入探讨直接偏好优化(Direct Preference Optimization, DPO)算法的梯度特性，特别是偏好概率差对梯度幅度的加权机制及其带来的隐式正则化作用。DPO作为一种直接优化策略，在训练过程中无需显式地拟合奖励模型，而是直接从偏好数据中学习策略。这使得DPO在很多场景下比传统的强化学习方法更有效率，也更易于部署。 1. DPO算法的回顾首先，我们简单回顾一下DPO算法的核心思想。DPO的目标是训练一个策略 $pi{theta}$，使其能够最大化人类的偏好。给定一个提示词(prompt) $x$，以及两个由策略 $pi{theta}$ 生成的回复 $y_w$ (更受欢迎的) 和 $y_l$ (不太受欢迎的)，DPO的目标函数可以写成： $$ mathcal{L}{DPO}(theta) = – mathbb{E}{(x, y_w, yl) sim mathcal{D}} left[ log sigma left( beta log frac{pi{theta}(yw …

继续阅读“DPO算法的梯度分析：偏好概率差对梯度幅度的加权机制及其隐式正则化作用”

2025年11月23日

Constitutional AI（宪法AI）：利用AI反馈（RLAIF）将自然语言原则转化为奖励信号

Constitutional AI：利用AI反馈（RLAIF）将自然语言原则转化为奖励信号大家好！今天我们来深入探讨一个前沿且充满潜力的领域：Constitutional AI，即宪法AI。核心思想是利用AI反馈（RLAIF）将自然语言原则转化为奖励信号，从而引导AI模型的训练，使其行为更加符合人类价值观和伦理规范。传统的AI训练往往依赖于人工标注数据，成本高昂且难以覆盖所有场景。Constitutional AI提供了一种更具扩展性和灵活性的替代方案。一、 Constitutional AI 的核心概念 Constitutional AI并非指AI拥有法律意义上的宪法，而是指通过一套明确的自然语言原则（我们称之为“宪法”），引导AI的行为。这套“宪法”并非硬编码的规则，而是作为奖励信号，驱动AI模型的学习和进化。以下是Constitutional AI的几个核心概念：自然语言原则（宪法）：一系列用自然语言表达的价值观、伦理规范或行为准则。例如： “避免产生有害信息。” “优先考虑人类的安全和福祉。” “尊重隐私，不泄露个人信息。” “提供客观、公正的信息。” AI反馈 …

继续阅读“Constitutional AI（宪法AI）：利用AI反馈（RLAIF）将自然语言原则转化为奖励信号”

2025年11月23日

Best-of-N采样的帕累托前沿：推理计算量与生成质量之间的Scaling Law

Best-of-N采样的帕累托前沿：推理计算量与生成质量之间的Scaling Law 大家好，今天我们来探讨一个在生成模型领域非常重要的主题：Best-of-N采样策略，以及它与推理计算量和生成质量之间的Scaling Law。在深度学习模型，尤其是生成模型中，采样策略的选择对最终生成结果的质量有着至关重要的影响。Best-of-N采样作为一种常见的策略，通过生成多个候选样本并选择其中最优的样本来提升生成质量。但是，这种策略的计算成本也相应增加。因此，理解Best-of-N采样背后的Scaling Law，也就是推理计算量与生成质量之间的关系，对于在实际应用中进行权衡至关重要。 1. 生成模型中的采样策略在深入Best-of-N采样之前，我们先简单回顾一下生成模型中常用的采样策略。生成模型，例如Variational Autoencoder (VAE)、Generative Adversarial Network (GAN) 和自回归语言模型 (如GPT系列)，的目标是学习数据的分布，并能够从中生成新的样本。采样策略决定了我们如何从模型学习到的分布中抽取样本。常见的采样策略包括： …

继续阅读“Best-of-N采样的帕累托前沿：推理计算量与生成质量之间的Scaling Law”

2025年11月23日

PPO算法的Off-policy修正：重要性采样（Importance Sampling）在大Batch RL中的稳定性

PPO算法的Off-policy修正：重要性采样在大Batch RL中的稳定性大家好，今天我们要深入探讨PPO（Proximal Policy Optimization）算法中一个至关重要的环节，也就是它的Off-policy修正机制，以及在使用大批量数据进行训练时，如何保证重要性采样的稳定性。PPO算法以其相对稳定和易于实现的优点，在强化学习领域得到了广泛应用。然而，在实际应用中，尤其是在处理大规模数据和复杂环境时，我们常常会遇到训练不稳定，收敛速度慢等问题。这些问题往往与PPO算法中Off-policy修正的实现方式，特别是重要性采样的稳定性密切相关。 PPO算法回顾与Off-policy修正的必要性首先，我们简单回顾一下PPO算法的核心思想。PPO是一种基于策略梯度的算法，旨在通过迭代优化策略来最大化累积奖励。它属于On-policy算法，这意味着它使用当前策略生成的数据来更新策略。但是，为了提高样本利用率，PPO引入了一种巧妙的Off-policy修正机制，允许算法利用过去策略生成的数据进行学习，从而减少了策略更新的方差，提高了训练效率。 PPO算法的目标是最大化以下目标函 …

继续阅读“PPO算法的Off-policy修正：重要性采样（Importance Sampling）在大Batch RL中的稳定性”