Transformer 中的残差连接到底在做什么
Transformer 中的残差连接到底在做什么
Transformer 之所以能堆叠到上百层(如 GPT-3 的 96 层),除了 Attention 和 LayerNorm,最重要的功臣莫过于 残差连接(Residual Connection)。
这一简洁的加法操作,不仅有效解决了深度网络的退化问题(Degradation),还赋予了 Transformer 独特的“集成学习”特性。本文将从优化动力学、集成视角以及神经微分方程等多个维度,解析残差连接的深层机理。
梯度高速公路(Gradient Highway)
残差连接最直接的贡献在于缓解 梯度消失(Gradient Vanishing) 问题。
在反向传播过程中,损失函数 对输入 的梯度可以通过恒等映射(Identity Mapping)直接传递到前一层:
式中的单位矩阵 构建了一条畅通无阻的“梯度高速公路”。即使深层变换 的梯度范数极小(甚至趋近于 0),梯度信号依然可以通过 项无损地回传至浅层。这使得训练包含数百甚至上千层的深度网络在数值上成为可能。
梯度破碎(Gradient Shattering)
如果没有残差连接,深层网络中的梯度往往表现出类似白噪声(White Noise)的统计特性,即相邻神经元的梯度相关性极低,这种现象被称为“梯度破碎”。
残差连接通过引入恒等路径,有效地保持了梯度的空间结构和相关性,使得优化过程更加平滑且具有方向性。
浅层网络的隐式集成(Implicit Ensemble)
除了改善梯度传播,残差连接还具有深刻的集成学习解释。
Veit 等人在 2016 年的研究 Residual Networks Behave Like Ensembles of Relatively Shallow Networks 中指出:残差网络本质上是多个不同有效深度的浅层网络的隐式集成。
对于一个深度为 的残差网络,由于每一层都可以选择“经过残差块”或“跳过残差块”,网络实际上展开为 条可能的路径组合。
- 有些路径非常短(只经过少数几个变换)。
- 有些路径非常长(经过所有变换)。
- 绝大多数路径的有效深度远小于 。
这意味着,即使我们训练了一个 100 层的 Transformer,其推理过程更类似于在执行“多模型投票”。实验中删除某一层(Layer Drop)对整体性能影响微乎其微,这进一步印证了这种“集成”假说的合理性。
神经常微分方程(Neural ODE)的视角
如果我们视层数 为连续的时间变量,那么残差连接的更新公式:
实际上对应于欧拉法(Euler Method)求解常微分方程(ODE)的离散化形式:
这一视角揭示了残差连接的动力学本质:Transformer 的每一层并非在学习全新的特征表示,而是在对现有的特征流进行微调(Refinement)和演化。
这也解释了为何在深层网络中,相邻层的特征表示往往具有极高的余弦相似度(Cosine Similarity)。
秩崩溃的解药
我们在之前的文章 Attention 的秩崩溃问题 中详细论述了纯 Attention 网络会导致输出向量的秩(Rank)呈双指数级衰减,最终导致“同质化”。
残差连接在其中扮演了关键的“保秩”角色:
由于 通常保持较高的秩(满秩或接近满秩),将其与低秩的 输出相加,结果 往往能维持较高的秩。这一机制强制模型在每一层都保留上一层的原始信息,从而防止了信息的过度压缩和特征空间的坍缩。
动态路由与计算分配
最新的研究进展(如 MoE, Mixture-of-Depths)进一步挖掘了残差连接的潜力。
基于残差连接允许信息“绕过”计算模块的特性,我们可以动态地决定每个 token 是否需要经过特定的计算层。
这不仅能显著提升推理速度,还能实现自适应计算(Adaptive Computation):让模型根据输入的难易程度,灵活分配计算资源。
总结
残差连接是深度学习复兴的基石,也是 Transformer 能够实现 Scale Up 的根本保障。它不仅仅是一个简单的加法操作,更是梯度传播的保障、模型集成的载体、动力学演化的离散化形式以及信息多样性的守护者。