双下降(Double Descent)现象:模型参数量与训练数据量在过参数化区间的非单调行为

双下降(Double Descent):模型复杂度与泛化能力的非单调关系 大家好,今天我们要深入探讨一个近年来在机器学习领域备受关注的现象——双下降(Double Descent)。传统的机器学习理论告诉我们,模型复杂度与泛化误差之间存在一种U型关系:模型过于简单时,欠拟合,误差大;模型过于复杂时,过拟合,误差也大。然而,双下降现象挑战了这一传统认知,揭示了在模型参数量超过训练数据量时,泛化误差可能呈现出一种先上升后下降的非单调行为。 1. 经典理论的局限性与双下降的出现 在经典的统计学习理论中,我们通常假设模型复杂度由VC维或者Rademacher复杂度等概念来衡量。这些理论预测,随着模型复杂度的增加,训练误差会逐渐减小,但泛化误差会先减小后增大,形成一个U型曲线。这是因为模型在复杂度较低时,无法充分捕捉数据的内在结构,导致欠拟合;而当模型复杂度过高时,又容易记住训练数据中的噪声,导致过拟合。 然而,随着深度学习的兴起,人们发现许多深度神经网络的参数量远大于训练数据集的大小,却仍然能够取得很好的泛化性能。这种现象与经典理论的预测相悖,促使研究者们开始重新审视模型复杂度与泛化能力之间的 …