大模型训练中的Grokking现象:验证集损失突然下降背后的相变与权重范数分析

Grokking 现象:一场深度学习的“顿悟” 大家好,今天我们来聊聊深度学习训练中一个比较神秘,但又逐渐被大家重视的现象:Grokking。这个词源于科幻小说《异乡异客》,意指完全理解某件事物。在深度学习语境下,Grokking 指的是模型在训练初期,训练损失下降很快,但验证集损失几乎没有下降,甚至还在波动。然而,经过漫长的训练后,验证集损失会突然大幅下降,模型仿佛“顿悟”了一般,泛化能力瞬间提升。 这个现象最早由 OpenAI 的团队在一篇名为 "Memorization and Generalization in Deep Learning" 的论文中提出。他们发现,在一些简单的任务上,模型会先记住训练数据,然后才学会泛化。这种“先死记硬背,后融会贯通”的过程,引起了广泛关注。 Grokking 现象的直观理解 为了更好地理解 Grokking,我们可以将其与传统的机器学习训练过程进行对比: 传统机器学习: 通常,训练损失和验证集损失会同步下降。模型在训练过程中逐步学习数据的模式,并不断提升泛化能力。 Grokking: 训练损失迅速下降,表明模型在快速学习训 …