标签: Rank Collapse

“Attention Is Not All You Need” —— 这是 Dong 等人在 2021 年发表的一篇论文的标题（ICML 2021）。

该研究揭示了一个关键的理论问题：在没有特定结构约束的情况下，纯 Attention 模型的秩（Rank）会随着深度增加呈双指数级衰减。

简而言之，如果不引入非线性（如 FFN）或残差连接（Residual），深层 Transformer 的输出最终将退化为线性相关的向量，导致模型表达能力丧失。这种现象被称为秩崩溃（Rank Collapse）。

agicy2026/3/6大约 4 分钟