神经正切核(NTK)视角的缩放定律:无限宽网络极限下的学习动力学推导

神经正切核(NTK)视角的缩放定律:无限宽网络极限下的学习动力学推导 大家好,今天我们来深入探讨一个深度学习领域的核心概念:神经正切核 (Neural Tangent Kernel, NTK)。我们将从 NTK 的基本原理出发,逐步推导出无限宽网络极限下的学习动力学,并最终解释缩放定律 (Scaling Laws) 如何在 NTK 框架下体现。 1. 神经网络与函数空间 首先,我们需要明确神经网络的本质:它是一个参数化的函数。给定输入 x 和网络参数 θ,神经网络 f(x; θ) 输出一个预测值。 深度学习的目标是找到一组最优参数 θ,使得 f(x; θ)* 尽可能接近真实函数。 例如,一个简单的两层全连接神经网络可以表示为: import numpy as np def relu(x): return np.maximum(0, x) def neural_network(x, W1, b1, W2, b2): “”” 两层全连接神经网络。 Args: x: 输入向量 (shape: (input_dim,)). W1: 第一层权重矩阵 (shape: (hidden_dim, in …

NTK-Aware Scaled RoPE:通过神经正切核理论实现非微调情况下的上下文长度外推

NTK-Aware Scaled RoPE:通过神经正切核理论实现非微调情况下的上下文长度外推 大家好,今天我们要深入探讨一个非常有趣且实用的主题:NTK-Aware Scaled RoPE,以及它如何利用神经正切核(Neural Tangent Kernel, NTK)理论在不进行微调的情况下实现上下文长度的外推。这对于扩展现有大型语言模型(LLM)的应用范围,降低计算成本具有重要意义。 1. 上下文长度外推的挑战 大型语言模型(LLM)在训练时通常会限定一个最大上下文长度(例如4096 tokens)。然而,实际应用中,我们常常需要处理超出这个长度的序列。直接截断序列会导致信息丢失,而对整个模型进行微调以适应更长的上下文则需要大量的计算资源和时间。 现有的上下文长度外推方法主要分为两大类: 微调方法: 这类方法通过在更长的序列上微调模型来提升其处理长上下文的能力。然而,微调成本高昂,且可能导致模型遗忘已学习的知识。 非微调方法: 这类方法试图在不改变模型参数的情况下,通过修改模型的输入或输出,使其能够处理更长的上下文。例如,位置编码的插值、相对位置编码的缩放等。 NTK-Aware …