ReLU/GeLU 神经网络是相联存储器吗?
ReLU/GeLU 神经网络是相联存储器吗?
这不仅是一个饶有趣味的类比,更是当前可解释性 AI (Explainable AI) 领域的核心议题。
传统观点倾向于将神经网络视为层级化的特征提取器(Hierarchical Feature Extractor),认为每一层都在将输入变换至更高维、更抽象的语义空间。然而,随着 Transformer 架构的兴起,特别是 Geva 等人在 2021 年发表的开创性工作 [Transformer Feed-Forward Layers Are Key-Value Memories][1] 以及 Ramsauer 等人在 2020 年提出的 [Hopfield Networks is All You Need][2],学术界开始重新审视前馈网络(FFN)的本质:它们实际上是一个巨大的、静态的相联存储器(Associative Memory)。
本文将从数学定义、现代 Hopfield 网络理论以及 Transformer 内部机制三个维度,深入剖析为何基于 ReLU/GeLU 的 FFN 本质上即为相联存储器。
什么是相联存储器(Associative Memory)?
在计算机体系结构中,传统存储器(如 RAM)通过地址(Address)进行寻址。而相联存储器(Content-Addressable Memory, CAM)则是通过内容(Content)本身进行寻址。
数学定义
假设存在一组待存储的模式对(Patterns):
其中 为键(Key), 为值(Value)。
相联存储器的核心机制是:给定一个查询向量 ,寻找与 最相似的键 ,并输出对应的值 。在连续向量空间中,这一过程通常建模为加权求和:
其中 为相似度(Attention)系数或激活强度。
前馈网络(FFN)的键值存储视角
Transformer 中的前馈网络层(FFN)通常由两个线性变换和一个非线性激活函数构成:
其中 为输入向量,,。 为 ReLU 或 GeLU 等非线性激活函数。
矩阵拆解:从矩阵乘法到向量求和
为了揭示其存储本质,我们将矩阵 视为 个行向量(Keys)的集合,将 视为 个列向量(Values)的集合:
代入 FFN 公式,可将其重写为:
机制解析
上述公式清晰地表明,FFN 的运作机制完全符合相联存储器的定义:
- 模式匹配 (Pattern Matching):计算输入 与每个键 的内积 。这衡量了输入与存储模式的相似度。
- 门控激活 (Gating/Activation):通过非线性函数 处理相似度。
- ReLU:充当稀疏过滤器。仅当相似度超过特定阈值(由 Bias 控制)时,该记忆单元才被激活。
- GeLU:提供更平滑的概率化激活,允许微弱的梯度回传,增强了优化的稳定性。
- 记忆提取 (Memory Retrieval):将激活系数 作为权重,对所有值向量 进行加权叠加。
结论:FFN 层实际上是在查询全数据集上的静态记忆库。 存储了“特征原型”(Keys),而 存储了当该特征被激活时,对残差流(Residual Stream)应做的修正(Values)。
现代 Hopfield 网络与能量函数
为了从理论高度论证这一观点,我们需要引入能量函数(Energy Function)视角。这与统计物理学中的自旋玻璃模型(Spin Glass Model)有着深刻联系,也正是凭借在这些领域的开创性贡献,John Hopfield 荣获 2024 年诺贝尔物理学奖。
经典 vs 现代 Hopfield 网络
- 经典 Hopfield 网络 (1982):由 John Hopfield 提出。采用二值神经元,存储容量受限,仅为 。
- 现代 Hopfield 网络 (Dense Associative Memory, 2016):Krotov 和 Hopfield 提出使用非线性激活函数(如 ReLU/Polynomial)替代符号函数。这一改进极大地提升了存储容量(达到指数级 )。
FFN 作为能量最小化过程
现代 Hopfield 网络理论证明,对于一个具有连续状态和非线性激活函数的动力系统,其能量函数 可定义为:
其中 为拉格朗日函数(Lagrangian function)。
- 若 ,系统退化为线性网络。
- 若 或 ,系统则演变为现代 Hopfield 网络。
在 Transformer 架构中:
- Attention 机制 对应于 ,即 Softmax 的能量函数形式。
- FFN (ReLU) 对应于 的能量形式。
这意味着,基于 ReLU/GeLU 的 FFN 层不仅仅在功能上“像”相联存储器,它们在数学本质上等价于现代 Hopfield 网络的一次更新步(Update Step)。
实验证据:知识神经元(Knowledge Neurons)
理论推导需要实验验证。Dai 等人在 2022 年的论文 [Knowledge Neurons in Pretrained Transformers][3] 中通过“积分梯度(Integrated Gradients)”方法找到了直接证据。
事实知识的存储
他们发现,对于事实性知识(如“法国的首都是巴黎”),模型中存在特定的知识神经元(Knowledge Neurons):
- 这些神经元主要分布在 FFN 层。
- (Key):负责识别事实的主体(如“法国”)。
- (Value):负责输出事实的客体(如“巴黎”)。
- (Activation):当输入中包含“法国”且上下文暗示在问首都时,该神经元被激活。
如果人为抑制这些特定的神经元,模型就会“忘记”这个事实;如果人为增强它们,模型就会倾向于输出该事实。这强有力地支持了“FFN 是键值存储器”的假设。
ReLU vs GeLU:稀疏性与平滑性的权衡
为什么选择 ReLU 或 GeLU 而不是 Sigmoid 或 Tanh?
ReLU (Rectified Linear Unit):
- 稀疏性 (Sparsity):ReLU 的单侧抑制特性( 时为 0)至关重要。这保证了对于任意输入,只有极少数(通常 < 5%)的记忆单元被激活。这符合人类大脑的稀疏编码(Sparse Coding)原理——我们回忆一件事时,不会激活大脑中所有的神经元。
- 相联性:稀疏性使得不同的记忆之间干扰最小化,从而提高了存储容量。
GeLU (Gaussian Error Linear Unit):
- 概率解释:GeLU 可以看作是 ReLU 的平滑近似,引入了随机正则化的思想。
- 梯度流:在 接近 0 的区域,GeLU 提供了非零梯度,有助于模型在训练初期逃离“死区”。虽然它牺牲了部分绝对稀疏性,但保留了大部分相联存储的特性。
总结
基于 ReLU/GeLU 的神经网络,特别是 Transformer 中的 FFN 层,不仅在功能上,而且在数学结构和实验现象上,都表现为相联存储器。
- (Keys):存储模式(Pattern Recognition)。
- Activation (ReLU/GeLU):计算能量,决定激活强度(Energy Landscape)。
- (Values):存储内容(Content Retrieval)。
这一视角不仅解释了模型如何工作,也为我们理解大语言模型的幻觉(Hallucination)(错误记忆的激活)和知识编辑(Knowledge Editing)(直接修改 )提供了理论基础。