collapse - 智猿学院-前后端，数据库，人工智能，云计算等领域前沿技术讲座

2025年11月23日

SFT数据中的模态坍塌（Mode Collapse）：监督微调如何导致模型丧失预训练的多样性

好的，没问题。监督微调与模态坍塌：丧失预训练多样性的风险各位同学，大家好。今天我们来探讨一个在监督微调（Supervised Fine-Tuning，SFT）中经常被忽视，但却至关重要的问题：模态坍塌（Mode Collapse）。我们将深入理解SFT如何导致模型丧失预训练阶段所拥有的多样性，并探讨其背后的原因、影响以及可能的缓解策略。什么是模态坍塌？在深入讨论SFT中的模态坍塌之前，我们首先需要明确模态（Mode）的概念。在机器学习，特别是生成模型中，模态指的是数据分布中的一个峰值，或者说是一个常见的数据模式。例如，如果我们训练一个生成图像的模型，一个模态可能代表着“猫”的图像，另一个模态可能代表着“狗”的图像。一个好的生成模型应该能够覆盖数据分布中的多个模态，生成多样化的结果。模态坍塌指的是生成模型仅仅学习到数据分布中的少数几个模态，而忽略了其他模态。这意味着模型生成的样本缺乏多样性，往往集中在几个常见的模式上。例如，如果一个生成图像的模型发生了模态坍塌，它可能只能生成几种特定姿势或特定品种的猫的图像，而无法生成其他类型的猫，更不用说狗或其他动物的图像了。监督微调（SF …

继续阅读“SFT数据中的模态坍塌（Mode Collapse）：监督微调如何导致模型丧失预训练的多样性”

2025年11月22日

Model Collapse（模型崩溃）研究：递归使用合成数据训练对模型分布尾部信息的丢失

模型崩溃：递归合成数据训练下的分布尾部信息丢失各位同学，大家好。今天我们来深入探讨一个近年来在机器学习领域备受关注的问题：模型崩溃 (Model Collapse)。具体来说，我们将重点关注递归使用合成数据训练对模型分布尾部信息的影响。什么是模型崩溃？模型崩溃指的是，当模型反复使用自己生成的合成数据进行训练时，性能逐渐下降，最终变得无法有效泛化到真实世界的数据。这种现象在生成对抗网络 (GANs) 中尤为常见，但也可能出现在其他类型的模型中，例如语言模型。一个简单的比喻是，如果一群学生一直在互相抄作业，而不是学习真正的知识，那么他们的能力最终会越来越差，无法解决实际问题。递归合成数据训练的风险递归合成数据训练是指，我们首先使用真实数据训练一个模型，然后使用该模型生成合成数据，再使用合成数据训练一个新模型（或者更新原模型），如此循环往复。这种方法看似可以扩展训练数据集，解决数据稀缺问题，但实际上存在很大的风险。风险的核心在于，模型生成的合成数据不可避免地会存在偏差和局限性。这些偏差可能源于：模型自身的能力限制：模型无法完美地捕捉真实数据的全部特征和分布。训练数据的偏 …

继续阅读“Model Collapse（模型崩溃）研究：递归使用合成数据训练对模型分布尾部信息的丢失”

2025年11月22日

模型坍塌（Model Collapse）的数学边界：递归使用合成数据训练导致的分布退化速率

模型坍塌的数学边界：递归使用合成数据训练导致的分布退化速率各位同学，大家好。今天我们来探讨一个在机器学习，特别是生成模型领域非常重要的现象：模型坍塌（Model Collapse）。我们将深入研究模型坍塌的数学边界，重点关注递归使用合成数据训练时，数据分布退化的速率问题。 1. 模型坍塌的定义与背景模型坍塌是指生成模型（例如GAN、VAE）在训练过程中，生成的数据失去多样性，趋于单一化，甚至完全失效的现象。想象一下，一个原本应该能画出各种各样猫的生成模型，最终只能画出一种非常相似的猫，甚至只能画出噪声。这就是模型坍塌的一个典型表现。模型坍塌的原因有很多，包括：判别器过拟合：在GAN中，判别器过早地学会区分真实数据和生成数据，导致生成器无法获得有效的梯度信息。模式崩塌：生成器只学会生成训练数据集中最常见的模式，忽略了其他模式。梯度消失/爆炸：训练过程中梯度过小或过大，导致模型无法有效更新。训练数据分布与真实数据分布存在差异：当训练数据不能很好地代表真实世界数据时，模型容易过拟合到训练数据，从而导致生成的数据缺乏泛化能力。今天我们关注的是一个更具体的问题：如果模型不 …

继续阅读“模型坍塌（Model Collapse）的数学边界：递归使用合成数据训练导致的分布退化速率”