Transformer 中的残差连接到底在做什么

agicy2026/3/6大约 4 分钟

Transformer 中的残差连接到底在做什么

Transformer 之所以能堆叠到上百层（如 GPT-3 的 96 层），除了 Attention 和 LayerNorm，最重要的功臣莫过于 残差连接（Residual Connection）。

\mathbf{y} = \mathbf{x} + F(\mathbf{x})

这一简洁的加法操作，不仅有效解决了深度网络的退化问题（Degradation），还赋予了 Transformer 独特的“集成学习”特性。本文将从优化动力学、集成视角以及神经微分方程等多个维度，解析残差连接的深层机理。

梯度高速公路（Gradient Highway）

残差连接最直接的贡献在于缓解 梯度消失（Gradient Vanishing） 问题。
在反向传播过程中，损失函数 $L$ 对输入 $\mathbf{x}$ 的梯度可以通过恒等映射（Identity Mapping）直接传递到前一层：

\frac{\partial L}{\partial \mathbf{x}} = \frac{\partial L}{\partial \mathbf{y}} \cdot \left(I + \frac{\partial F}{\partial \mathbf{x}}\right)

式中的单位矩阵 $I$ 构建了一条畅通无阻的“梯度高速公路”。即使深层变换 $F(\mathbf{x})$ 的梯度范数极小（甚至趋近于 0），梯度信号依然可以通过 $I$ 项无损地回传至浅层。这使得训练包含数百甚至上千层的深度网络在数值上成为可能。

梯度破碎（Gradient Shattering）

如果没有残差连接，深层网络中的梯度往往表现出类似白噪声（White Noise）的统计特性，即相邻神经元的梯度相关性极低，这种现象被称为“梯度破碎”。
残差连接通过引入恒等路径，有效地保持了梯度的空间结构和相关性，使得优化过程更加平滑且具有方向性。

浅层网络的隐式集成（Implicit Ensemble）

除了改善梯度传播，残差连接还具有深刻的集成学习解释。
Veit 等人在 2016 年的研究 Residual Networks Behave Like Ensembles of Relatively Shallow Networks 中指出：残差网络本质上是多个不同有效深度的浅层网络的隐式集成。

对于一个深度为 $L$ 的残差网络，由于每一层都可以选择“经过残差块”或“跳过残差块”，网络实际上展开为 $2^L$ 条可能的路径组合。

有些路径非常短（只经过少数几个变换）。
有些路径非常长（经过所有变换）。
绝大多数路径的有效深度远小于 $L$ 。

这意味着，即使我们训练了一个 100 层的 Transformer，其推理过程更类似于在执行“多模型投票”。实验中删除某一层（Layer Drop）对整体性能影响微乎其微，这进一步印证了这种“集成”假说的合理性。

神经常微分方程（Neural ODE）的视角

如果我们视层数 $t$ 为连续的时间变量，那么残差连接的更新公式：

\mathbf{x}_{t+1} = \mathbf{x}_t + F(\mathbf{x}_t)

实际上对应于欧拉法（Euler Method）求解常微分方程（ODE）的离散化形式：

\frac{d\mathbf{x}(t)}{dt} = F(\mathbf{x}(t), t)

这一视角揭示了残差连接的动力学本质：Transformer 的每一层并非在学习全新的特征表示，而是在对现有的特征流进行微调（Refinement）和演化。
这也解释了为何在深层网络中，相邻层的特征表示往往具有极高的余弦相似度（Cosine Similarity）。

秩崩溃的解药

我们在之前的文章 Attention 的秩崩溃问题中详细论述了纯 Attention 网络会导致输出向量的秩（Rank）呈双指数级衰减，最终导致“同质化”。

残差连接在其中扮演了关键的“保秩”角色：

\mathbf{X}_{t+1} = \mathbf{X}_t + \text{Attention}(\mathbf{X}_t)

由于 $\mathbf{X}_t$ 通常保持较高的秩（满秩或接近满秩），将其与低秩的 $\text{Attention}(\mathbf{X}_t)$ 输出相加，结果 $\mathbf{X}_{t+1}$ 往往能维持较高的秩。这一机制强制模型在每一层都保留上一层的原始信息，从而防止了信息的过度压缩和特征空间的坍缩。

Transformer 中的残差连接到底在做什么

Transformer 中的残差连接到底在做什么

梯度高速公路（Gradient Highway）

梯度破碎（Gradient Shattering）

浅层网络的隐式集成（Implicit Ensemble）

神经常微分方程（Neural ODE）的视角

秩崩溃的解药

动态路由与计算分配

总结

参考文献