在 Transformer 架构的演进过程中,Layer Normalization (LN) 的位置选择是一个看似微小但影响深远的设计细节。原始的 Transformer (Attention is All You Need) 采用了 Post-LN 结构,而随后的 GPT-2、GPT-3 以及当代的 LLaMA 等主流大模型几乎一致转向了 Pre-LN。
这一范式转移背后的动因是什么?Pre-LN 是否是完美的解决方案?DeepNorm 又是如何通过初始化策略调和两者矛盾的?本文将深入探讨这一架构设计中的权衡(Trade-off)。
2026/3/6大约 6 分钟