博客主页 | Agicy's Blog

在这个 AI 爆发的时代，GPU 编程已经成为高性能计算和深度学习系统的基石。然而，许多开发者对 CUDA 的理解仅停留在调用 PyTorch 或 Triton 的层面。

本专题 (LeetGPU) 旨在通过一系列由浅入深的编程挑战，带你亲手实现从基础向量加法到 GPT-2 Transformer Block 的核心算子。每一个挑战都不仅是代码实现，更是对并行计算思维、内存层次结构和硬件特性的深度探索。

特别值得强调的是，从 CPU 到 GPU 的编程思维转变，核心在于从“以指令为中心”转向“以数据为中心”，以及在具体算子实现中灵活运用“以输入为中心（Input-centric / Scatter）”与“以输出为中心（Output-centric / Gather）”的计算模式。理解这些模式的适用场景（如写冲突处理、访存合并等），是写出高性能 Kernel 的关键。

agicy2026/3/9大约 6 分钟

专题：Transformer 深度解析 (Transformer Insider)

在大模型（LLM）风起云涌的今天，我们往往只关注参数量（7B, 65B, 175B）和模型效果。但作为工程师和研究者，我们更应该深入了解 Transformer 这个“地基”下的每一块砖瓦。

本专题旨在深入剖析 Transformer 架构中那些容易被忽视，但却至关重要的细节。从数值稳定性到几何直觉，从内存优化到理论缺陷，带你重新认识这个改变了 AI 历史的模型。

agicy2026/3/6大约 2 分钟

深入理解内存一致性：从原子操作到指令集架构

在并发编程的世界里，内存一致性（Memory Consistency）是一个核心且复杂的概念。无论是编写高性能的无锁数据结构，还是调试多线程程序中的诡异 Bug，理解原子操作、内存屏障（Memory Fence）以及底层硬件的内存模型都是必不可少的。

本文将深入探讨内存一致性的相关概念，解答 seqcst、acq、rel 等标准是否是唯一的真理，并详细介绍 x86、ARM、RISC-V 和 LoongArch 等主流指令集架构在内存一致性方面的实现。

agicy2026/3/9大约 20 分钟

详解 Git 的三种 Merge Request 形式

在现代软件工程实践中，代码审查与合并是保障代码质量与维持项目可维护性的核心环节。GitHub、GitLab 等主流代码托管平台通常提供三种截然不同的合并策略：Create a merge commit、Squash and merge 以及 Rebase and merge。

这三种策略并非简单的功能选项，它们深刻影响着项目的 Git 历史形态、版本回溯的难度以及团队协作的心智模型。选择合适的合并策略，是构建清晰、可追溯且易于维护的代码仓库的关键。

agicy2026/3/9大约 5 分钟

深入理解 RPC 语义：从可能交付到精确一次

在分布式系统的架构设计中，远程过程调用（RPC）构成了服务间通信的基石。然而，受限于网络环境的不确定性（如丢包、延迟、拥塞）以及节点运行状态的不可靠性（如宕机、重启），RPC 调用无法提供与本地函数调用等同的可靠性保证。

当一个 RPC 请求发出后，若调用方（Client）在预定时间内未收到响应，将面临信息缺失的困境：调用方无法判定请求是因网络故障未能送达，还是服务端（Server）已处理但响应在回传途中丢失。这种状态的不确定性引出了 RPC 的核心语义问题：在发生故障时，RPC 系统能够保证过程执行了多少次？

本文将引入分布式系统理论中的安全性与活性属性，深入探讨四种主要的 RPC 语义：可能交付、至多一次、至少一次 以及 精确一次，并进一步分析在复杂工程实践中常被提及的端到端语义与事务性语义。

agicy2026/3/9大约 9 分钟

Attention 的秩崩溃问题

“Attention Is Not All You Need” —— 这是 Dong 等人在 2021 年发表的一篇论文的标题（ICML 2021）。

该研究揭示了一个关键的理论问题：在没有特定结构约束的情况下，纯 Attention 模型的秩（Rank）会随着深度增加呈双指数级衰减。

简而言之，如果不引入非线性（如 FFN）或残差连接（Residual），深层 Transformer 的输出最终将退化为线性相关的向量，导致模型表达能力丧失。这种现象被称为秩崩溃（Rank Collapse）。

agicy2026/3/6大约 4 分钟

ReLU/GeLU 神经网络是相联存储器吗？

这不仅是一个饶有趣味的类比，更是当前可解释性 AI (Explainable AI) 领域的核心议题。

传统观点倾向于将神经网络视为层级化的特征提取器（Hierarchical Feature Extractor），认为每一层都在将输入变换至更高维、更抽象的语义空间。然而，随着 Transformer 架构的兴起，特别是 Geva 等人在 2021 年发表的开创性工作 [Transformer Feed-Forward Layers Are Key-Value Memories][^1] 以及 Ramsauer 等人在 2020 年提出的 [Hopfield Networks is All You Need][^2]，学术界开始重新审视前馈网络（FFN）的本质：它们实际上是一个巨大的、静态的相联存储器（Associative Memory）。

本文将从数学定义、现代 Hopfield 网络理论以及 Transformer 内部机制三个维度，深入剖析为何基于 ReLU/GeLU 的 FFN 本质上即为相联存储器。

agicy2026/3/6大约 7 分钟

KV Cache：大模型推理的性能瓶颈与优化艺术

在与 DeepSeek、Qwen 或 Doubao-Seed 等前沿大模型交互时，一个显著的现象是：生成的响应速度往往远低于输入的处理速度。这一现象背后的核心技术瓶颈，在于大模型推理过程中必不可少的 KV Cache 机制。

KV Cache 是一种经典的空间换时间（Space-Time Trade-off）策略，它极大地加速了自回归（Auto-Regressive）生成的解码过程。然而，随着模型规模和上下文长度的增长，它逐渐演变为显存占用和系统吞吐量的主要制约因素。

本文将深入解析 KV Cache 的工作原理、其带来的显存墙（Memory Wall）挑战，以及 MQA/GQA、PagedAttention、PD 分离等前沿优化技术如何试图突破这一瓶颈。

agicy2026/3/6大约 11 分钟

LayerNorm 的位置之争：Pre-LN vs Post-LN

在 Transformer 架构的演进过程中，Layer Normalization (LN) 的位置选择是一个看似微小但影响深远的设计细节。原始的 Transformer (Attention is All You Need) 采用了 Post-LN 结构，而随后的 GPT-2、GPT-3 以及当代的 LLaMA 等主流大模型几乎一致转向了 Pre-LN。

这一范式转移背后的动因是什么？Pre-LN 是否是完美的解决方案？DeepNorm 又是如何通过初始化策略调和两者矛盾的？本文将深入探讨这一架构设计中的权衡（Trade-off）。

agicy2026/3/6大约 6 分钟

Transformer 中的残差连接到底在做什么

Transformer 之所以能堆叠到上百层（如 GPT-3 的 96 层），除了 Attention 和 LayerNorm，最重要的功臣莫过于 残差连接（Residual Connection）。

\mathbf{y} = \mathbf{x} + F(\mathbf{x})

这一简洁的加法操作，不仅有效解决了深度网络的退化问题（Degradation），还赋予了 Transformer 独特的“集成学习”特性。本文将从优化动力学、集成视角以及神经微分方程等多个维度，解析残差连接的深层机理。

agicy2026/3/6大约 4 分钟