标签: LayerNorm

LayerNorm 的位置之争：Pre-LN vs Post-LN

在 Transformer 架构的演进过程中，Layer Normalization (LN) 的位置选择是一个看似微小但影响深远的设计细节。原始的 Transformer (Attention is All You Need) 采用了 Post-LN 结构，而随后的 GPT-2、GPT-3 以及当代的 LLaMA 等主流大模型几乎一致转向了 Pre-LN。

这一范式转移背后的动因是什么？Pre-LN 是否是完美的解决方案？DeepNorm 又是如何通过初始化策略调和两者矛盾的？本文将深入探讨这一架构设计中的权衡（Trade-off）。

agicy2026/3/6大约 6 分钟