在 Transformer 的世界里,位置编码(Positional Encoding)一直是一个微妙而关键的组件。从最初的 Sinusoidal 编码,到 Learnable 编码,再到 T5 的相对位置编码,人们一直在探索如何让模型更好地理解“序列顺序”。
直到 2021 年,苏剑林(Sci-Hub)等人提出的 Rotary Positional Embedding (RoPE) 横空出世。它以其优雅的几何解释和强大的外推能力,迅速统治了 LLaMA、PaLM、GLM 等几乎所有主流大模型。
本文将带你抛开复杂的公式推导,从几何直觉出发,理解 RoPE 到底在“转”什么。
2026/3/6大约 6 分钟