Monarch Mixer:利用结构化矩阵(Structured Matrices)替代稠密层实现亚二次方复杂度

Monarch Mixer:利用结构化矩阵替代稠密层实现亚二次方复杂度 大家好,今天我们要探讨一个非常有意思的话题:Monarch Mixer,它是一种利用结构化矩阵来替代传统稠密层,从而实现亚二次方复杂度的神经网络架构。在深度学习领域,模型的大小和计算复杂度一直是我们需要面对的重要挑战。尤其是在处理长序列数据时,传统的注意力机制和循环神经网络(RNN)往往会因为二次方的复杂度而变得难以承受。Monarch Mixer 的出现,为我们提供了一种新的思路,通过巧妙地设计矩阵结构,可以在保证模型性能的同时,显著降低计算成本。 稠密层的局限性 首先,我们来回顾一下稠密层(Dense Layer)或者说全连接层(Fully Connected Layer)。一个稠密层通常可以表示为: y = Ax + b 其中,x 是输入向量,A 是权重矩阵,b 是偏置向量,y 是输出向量。这个操作的核心在于矩阵乘法 Ax。对于一个输入维度为 N,输出维度为 M 的稠密层,权重矩阵 A 的大小为 M x N。这意味着我们需要存储 M x N 个参数,并且进行 M x N 次乘法运算。 当输入维度 N 和输出维 …