Transformer中的Softmax瓶颈:为何线性Attention在精确检索任务中表现不佳 大家好,今天我们来深入探讨Transformer架构中的一个关键组件——Softmax函数,以及它在Attention机制中带来的瓶颈,尤其是在精确检索任务中。我们将重点分析为什么线性Attention,作为一种试图缓解Softmax瓶颈的替代方案,在这些任务中表现不佳。 1. Transformer与Attention机制回顾 Transformer模型,由Vaswani等人在2017年提出,彻底改变了自然语言处理(NLP)领域。其核心在于自注意力机制(Self-Attention),它允许模型在处理序列时,关注序列中不同位置的信息。 让我们简单回顾一下标准的Scaled Dot-Product Attention的计算过程: 输入: Query (Q), Key (K), Value (V)。这三个矩阵都是从输入序列经过线性变换得到的。它们的维度分别是(N, d_q), (N, d_k), (N, d_v),其中N是序列长度,d_q, d_k, d_v分别是Query, Key, Va …
继续阅读“Transformer中的软最大值(Softmax)瓶颈:为何线性Attention在精确检索任务中表现不佳”