标签: ResNet

Transformer 之所以能堆叠到上百层（如 GPT-3 的 96 层），除了 Attention 和 LayerNorm，最重要的功臣莫过于 残差连接（Residual Connection）。

\mathbf{y} = \mathbf{x} + F(\mathbf{x})

这一简洁的加法操作，不仅有效解决了深度网络的退化问题（Degradation），还赋予了 Transformer 独特的“集成学习”特性。本文将从优化动力学、集成视角以及神经微分方程等多个维度，解析残差连接的深层机理。

agicy2026/3/6大约 4 分钟