标签: LLM

在大模型（LLM）风起云涌的今天，我们往往只关注参数量（7B, 65B, 175B）和模型效果。但作为工程师和研究者，我们更应该深入了解 Transformer 这个“地基”下的每一块砖瓦。

本专题旨在深入剖析 Transformer 架构中那些容易被忽视，但却至关重要的细节。从数值稳定性到几何直觉，从内存优化到理论缺陷，带你重新认识这个改变了 AI 历史的模型。

agicy2026/3/6大约 2 分钟

在与 DeepSeek、Qwen 或 Doubao-Seed 等前沿大模型交互时，一个显著的现象是：生成的响应速度往往远低于输入的处理速度。这一现象背后的核心技术瓶颈，在于大模型推理过程中必不可少的 KV Cache 机制。

KV Cache 是一种经典的空间换时间（Space-Time Trade-off）策略，它极大地加速了自回归（Auto-Regressive）生成的解码过程。然而，随着模型规模和上下文长度的增长，它逐渐演变为显存占用和系统吞吐量的主要制约因素。

本文将深入解析 KV Cache 的工作原理、其带来的显存墙（Memory Wall）挑战，以及 MQA/GQA、PagedAttention、PD 分离等前沿优化技术如何试图突破这一瓶颈。

agicy2026/3/6大约 11 分钟