标签: Softmax

从词表到语义：Softmax 权重共享 (Weight Tying)

在阅读 Transformer 的源码实现（如 Hugging Face 的 BERT/GPT）时，一个常被忽视但至关重要的细节是：Embedding 层的权重矩阵 $\mathbf{E}$ 与输出层（LM Head）的权重矩阵 $\mathbf{W}_{\text{out}}$ 是共享的。

这意味着：

\mathbf{W}_{\text{out}} = \mathbf{E}^\top

在 PyTorch 实现中，它们通常指向同一个 nn.Parameter 对象。

这一设计不仅仅是为了节省参数量，其背后蕴含着深刻的几何直觉和正则化（Regularization）原理。本文将探讨权重共享在语言建模中的理论基础及其必要性。

agicy2026/3/6大约 5 分钟