KAN(Kolmogorov-Arnold Networks)在大模型中的应用:用可学习激活函数替代MLP层的探索

KAN(Kolmogorov-Arnold Networks):用可学习激活函数替代MLP层的探索 各位同学,大家好。今天我们来聊聊一个最近比较火的神经网络架构——Kolmogorov-Arnold Networks (KANs)。它通过用可学习激活函数替代传统MLP(Multilayer Perceptron)层中的固定激活函数,在某些任务上展现出了令人惊喜的效果。我们将深入探讨KANs的原理、优势、局限性,以及如何在实际中应用它们。 1. KANs的理论基础:Kolmogorov-Arnold表示定理 KANs的设计灵感来源于Kolmogorov-Arnold表示定理。这个定理指出,任何多元连续函数都可以被表示成单变量连续函数的有限次叠加和复合。具体来说,对于一个函数 f(x₁, x₂, …, xₙ),可以找到单变量函数 φᵢ 和 ψᵢⱼ,使得: f(x₁, x₂, …, xₙ) = Σᵢ ψᵢ ( Σⱼ φᵢⱼ(xⱼ) ) 这个定理表明,我们可以将一个复杂的多元函数分解成更简单的单变量函数的组合。KANs正是基于这个思想,尝试将MLP中的权重矩阵和固定激活函数替换 …