“Attention Is Not All You Need” —— 这是 Dong 等人在 2021 年发表的一篇论文的标题(ICML 2021)。
该研究揭示了一个关键的理论问题:在没有特定结构约束的情况下,纯 Attention 模型的秩(Rank)会随着深度增加呈双指数级衰减。
简而言之,如果不引入非线性(如 FFN)或残差连接(Residual),深层 Transformer 的输出最终将退化为线性相关的向量,导致模型表达能力丧失。这种现象被称为秩崩溃(Rank Collapse)。
2026/3/6大约 4 分钟