ReLU/GeLU 神经网络是相联存储器吗？

agicy2026/3/6大约 7 分钟

ReLU/GeLU 神经网络是相联存储器吗？

这不仅是一个饶有趣味的类比，更是当前可解释性 AI (Explainable AI) 领域的核心议题。

传统观点倾向于将神经网络视为层级化的特征提取器（Hierarchical Feature Extractor），认为每一层都在将输入变换至更高维、更抽象的语义空间。然而，随着 Transformer 架构的兴起，特别是 Geva 等人在 2021 年发表的开创性工作 [Transformer Feed-Forward Layers Are Key-Value Memories]^[1] 以及 Ramsauer 等人在 2020 年提出的 [Hopfield Networks is All You Need]^[2]，学术界开始重新审视前馈网络（FFN）的本质：它们实际上是一个巨大的、静态的相联存储器（Associative Memory）。

本文将从数学定义、现代 Hopfield 网络理论以及 Transformer 内部机制三个维度，深入剖析为何基于 ReLU/GeLU 的 FFN 本质上即为相联存储器。

什么是相联存储器（Associative Memory）？

在计算机体系结构中，传统存储器（如 RAM）通过地址（Address）进行寻址。而相联存储器（Content-Addressable Memory, CAM）则是通过内容（Content）本身进行寻址。

数学定义

假设存在一组待存储的模式对（Patterns）：

\mathcal{M} = \{(\mathbf{k}_1, \mathbf{v}_1), (\mathbf{k}_2, \mathbf{v}_2), \dots, (\mathbf{k}_N, \mathbf{v}_N)\}

其中 $\mathbf{k}_i$ 为键（Key）， $\mathbf{v}_i$ 为值（Value）。

相联存储器的核心机制是：给定一个查询向量 $\mathbf{q}$ ，寻找与 $\mathbf{q}$ 最相似的键 $\mathbf{k}_i$ ，并输出对应的值 $\mathbf{v}_i$ 。在连续向量空间中，这一过程通常建模为加权求和：

\text{Memory}(\mathbf{q}) = \sum_{i=1}^N \alpha(\mathbf{q}, \mathbf{k}_i) \cdot \mathbf{v}_i

其中 $\alpha(\mathbf{q}, \mathbf{k}_i)$ 为相似度（Attention）系数或激活强度。

前馈网络（FFN）的键值存储视角

Transformer 中的前馈网络层（FFN）通常由两个线性变换和一个非线性激活函数构成：

\text{FFN}(\mathbf{x}) = \phi(\mathbf{x} \mathbf{W}_1^\top + \mathbf{b}_1) \mathbf{W}_2 + \mathbf{b}_2

其中 $\mathbf{x} \in \mathbb{R}^d$ 为输入向量， $\mathbf{W}_1 \in \mathbb{R}^{d_{ff} \times d}$ ， $\mathbf{W}_2 \in \mathbb{R}^{d \times d_{ff}}$ 。 $\phi$ 为 ReLU 或 GeLU 等非线性激活函数。

矩阵拆解：从矩阵乘法到向量求和

为了揭示其存储本质，我们将矩阵 $\mathbf{W}_1$ 视为 $d_{ff}$ 个行向量（Keys）的集合，将 $\mathbf{W}_2$ 视为 $d_{ff}$ 个列向量（Values）的集合：

\mathbf{W}_1 = \begin{bmatrix} \mathbf{k}_1^\top \\ \mathbf{k}_2^\top \\ \vdots \\ \mathbf{k}_{d_{ff}}^\top \end{bmatrix}, \quad \mathbf{W}_2 = \begin{bmatrix} \mathbf{v}_1 & \mathbf{v}_2 & \dots & \mathbf{v}_{d_{ff}} \end{bmatrix}

代入 FFN 公式，可将其重写为：

\text{FFN}(\mathbf{x}) = \sum_{i=1}^{d_{ff}} \underbrace{\phi(\mathbf{x} \cdot \mathbf{k}_i + b_{1,i})}_{\text{Memory Activation coefficient } m_i} \cdot \mathbf{v}_i

机制解析

上述公式清晰地表明，FFN 的运作机制完全符合相联存储器的定义：

模式匹配 (Pattern Matching)：计算输入 $\mathbf{x}$ 与每个键 $\mathbf{k}_i$ 的内积 $\mathbf{x} \cdot \mathbf{k}_i$ 。这衡量了输入与存储模式的相似度。
门控激活 (Gating/Activation)：通过非线性函数 $\phi$ $ϕ$ 处理相似度。
- ReLU：充当稀疏过滤器。仅当相似度超过特定阈值（由 Bias $b_{1,i}$ 控制）时，该记忆单元才被激活。
- GeLU：提供更平滑的概率化激活，允许微弱的梯度回传，增强了优化的稳定性。
记忆提取 (Memory Retrieval)：将激活系数 $m_i$ 作为权重，对所有值向量 $\mathbf{v}_i$ 进行加权叠加。

结论：FFN 层实际上是在查询全数据集上的静态记忆库。 $\mathbf{W}_1$ 存储了“特征原型”（Keys），而 $\mathbf{W}_2$ 存储了当该特征被激活时，对残差流（Residual Stream）应做的修正（Values）。

现代 Hopfield 网络与能量函数

为了从理论高度论证这一观点，我们需要引入能量函数（Energy Function）视角。这与统计物理学中的自旋玻璃模型（Spin Glass Model）有着深刻联系，也正是凭借在这些领域的开创性贡献，John Hopfield 荣获 2024 年诺贝尔物理学奖。

经典 vs 现代 Hopfield 网络

经典 Hopfield 网络 (1982)：由 John Hopfield 提出。采用二值神经元，存储容量受限，仅为 $0.14N$ 。
现代 Hopfield 网络 (Dense Associative Memory, 2016)：Krotov 和 Hopfield 提出使用非线性激活函数（如 ReLU/Polynomial）替代符号函数。这一改进极大地提升了存储容量（达到指数级 $e^{N}$ ）。

FFN 作为能量最小化过程

现代 Hopfield 网络理论证明，对于一个具有连续状态和非线性激活函数的动力系统，其能量函数 $E$ 可定义为：

E = -\sum_{i=1}^N F(\mathbf{x} \cdot \mathbf{k}_i)

其中 $F$ 为拉格朗日函数（Lagrangian function）。

若 $F(z) = \frac{1}{2}z^2$ ，系统退化为线性网络。
若 $F(z) = \text{ReLU}(z)^n$ 或 $e^z$ ，系统则演变为现代 Hopfield 网络。

在 Transformer 架构中：

Attention 机制 对应于 $F(z) = \text{logsumexp}(z)$ ，即 Softmax 的能量函数形式。
FFN (ReLU) 对应于 $F(z) = \text{ReLU}(z)$ 的能量形式。

这意味着，基于 ReLU/GeLU 的 FFN 层不仅仅在功能上“像”相联存储器，它们在数学本质上等价于现代 Hopfield 网络的一次更新步（Update Step）。

实验证据：知识神经元（Knowledge Neurons）

理论推导需要实验验证。Dai 等人在 2022 年的论文 [Knowledge Neurons in Pretrained Transformers]^[3] 中通过“积分梯度（Integrated Gradients）”方法找到了直接证据。

事实知识的存储

他们发现，对于事实性知识（如“法国的首都是巴黎”），模型中存在特定的知识神经元（Knowledge Neurons）：

这些神经元主要分布在 FFN 层。
$k_i$ (Key)：负责识别事实的主体（如“法国”）。
$v_i$ (Value)：负责输出事实的客体（如“巴黎”）。
$\phi$ (Activation)：当输入中包含“法国”且上下文暗示在问首都时，该神经元被激活。

如果人为抑制这些特定的神经元，模型就会“忘记”这个事实；如果人为增强它们，模型就会倾向于输出该事实。这强有力地支持了“FFN 是键值存储器”的假设。

ReLU vs GeLU：稀疏性与平滑性的权衡

为什么选择 ReLU 或 GeLU 而不是 Sigmoid 或 Tanh？

ReLU (Rectified Linear Unit)：
- 稀疏性 (Sparsity)：ReLU 的单侧抑制特性（ $x<0$ 时为 0）至关重要。这保证了对于任意输入，只有极少数（通常 < 5%）的记忆单元被激活。这符合人类大脑的稀疏编码（Sparse Coding）原理——我们回忆一件事时，不会激活大脑中所有的神经元。
- 相联性：稀疏性使得不同的记忆之间干扰最小化，从而提高了存储容量。
GeLU (Gaussian Error Linear Unit)：
- 概率解释：GeLU 可以看作是 ReLU 的平滑近似，引入了随机正则化的思想。
- 梯度流：在 $x$ 接近 0 的区域，GeLU 提供了非零梯度，有助于模型在训练初期逃离“死区”。虽然它牺牲了部分绝对稀疏性，但保留了大部分相联存储的特性。

总结

基于 ReLU/GeLU 的神经网络，特别是 Transformer 中的 FFN 层，不仅在功能上，而且在数学结构和实验现象上，都表现为相联存储器。

$W_1$ (Keys)：存储模式（Pattern Recognition）。
Activation (ReLU/GeLU)：计算能量，决定激活强度（Energy Landscape）。
$W_2$ (Values)：存储内容（Content Retrieval）。

这一视角不仅解释了模型如何工作，也为我们理解大语言模型的幻觉（Hallucination）（错误记忆的激活）和知识编辑（Knowledge Editing）（直接修改 $v_i$ ）提供了理论基础。