在阅读 Transformer 的源码实现(如 Hugging Face 的 BERT/GPT)时,一个常被忽视但至关重要的细节是:Embedding 层的权重矩阵 与输出层(LM Head)的权重矩阵 是共享的。
这意味着:
在 PyTorch 实现中,它们通常指向同一个 nn.Parameter 对象。
这一设计不仅仅是为了节省参数量,其背后蕴含着深刻的几何直觉和正则化(Regularization)原理。本文将探讨权重共享在语言建模中的理论基础及其必要性。
2026/3/6大约 5 分钟