神经正切核(NTK)视角的缩放定律:无限宽网络极限下的学习动力学推导

神经正切核(NTK)视角的缩放定律:无限宽网络极限下的学习动力学推导 大家好,今天我们来深入探讨一个深度学习领域的核心概念:神经正切核 (Neural Tangent Kernel, NTK)。我们将从 NTK 的基本原理出发,逐步推导出无限宽网络极限下的学习动力学,并最终解释缩放定律 (Scaling Laws) 如何在 NTK 框架下体现。 1. 神经网络与函数空间 首先,我们需要明确神经网络的本质:它是一个参数化的函数。给定输入 x 和网络参数 θ,神经网络 f(x; θ) 输出一个预测值。 深度学习的目标是找到一组最优参数 θ,使得 f(x; θ)* 尽可能接近真实函数。 例如,一个简单的两层全连接神经网络可以表示为: import numpy as np def relu(x): return np.maximum(0, x) def neural_network(x, W1, b1, W2, b2): “”” 两层全连接神经网络。 Args: x: 输入向量 (shape: (input_dim,)). W1: 第一层权重矩阵 (shape: (hidden_dim, in …