这不仅是一个饶有趣味的类比,更是当前可解释性 AI (Explainable AI) 领域的核心议题。
传统观点倾向于将神经网络视为层级化的特征提取器(Hierarchical Feature Extractor),认为每一层都在将输入变换至更高维、更抽象的语义空间。然而,随着 Transformer 架构的兴起,特别是 Geva 等人在 2021 年发表的开创性工作 [Transformer Feed-Forward Layers Are Key-Value Memories][^1] 以及 Ramsauer 等人在 2020 年提出的 [Hopfield Networks is All You Need][^2],学术界开始重新审视前馈网络(FFN)的本质:它们实际上是一个巨大的、静态的相联存储器(Associative Memory)。
本文将从数学定义、现代 Hopfield 网络理论以及 Transformer 内部机制三个维度,深入剖析为何基于 ReLU/GeLU 的 FFN 本质上即为相联存储器。
2026/3/6大约 7 分钟