旋转位置编码（RoPE）的几何直觉

agicy2026/3/6大约 6 分钟

旋转位置编码（RoPE）的几何直觉

在 Transformer 的世界里，位置编码（Positional Encoding）一直是一个微妙而关键的组件。从最初的 Sinusoidal 编码，到 Learnable 编码，再到 T5 的相对位置编码，人们一直在探索如何让模型更好地理解“序列顺序”。

直到 2021 年，苏剑林（Sci-Hub）等人提出的 Rotary Positional Embedding (RoPE) 横空出世。它以其优雅的几何解释和强大的外推能力，迅速统治了 LLaMA、PaLM、GLM 等几乎所有主流大模型。

本文将带你抛开复杂的公式推导，从几何直觉出发，理解 RoPE 到底在“转”什么。

绝对位置 vs 相对位置

绝对位置编码

朴素的绝对位置编码策略是为序列中的每个 token $i$ 分配一个固定的位置向量 $\mathbf{p}_i$ ，并将其叠加到词嵌入向量 $\mathbf{x}_i$ 上：

\mathbf{x}'_i = \mathbf{x}_i + \mathbf{p}_i

Transformer 原文中采用的正弦位置编码即属此类。尽管其具备良好的数学性质，但从定义上讲，它依赖于绝对索引 $i$ 。

相对位置编码

在自然语言处理任务中，语义往往更多地依赖于 token 之间的相对距离而非绝对位置。例如，“猫在垫子上”这一语义结构，无论出现在文本的何处，其内部 token 间的依赖关系应当是不变的。
因此，理想的 Attention 机制应满足平移不变性，即 Attention 分数 $A_{ij}$ 仅依赖于位置差 $m - n$ ：

\text{Attention}(\mathbf{q}_m, \mathbf{k}_n) = f(\mathbf{q}_m, \mathbf{k}_n, m - n)

RoPE 的核心思想：旋转

RoPE 的创新之处在于，它通过旋转（Rotation）操作，在不引入额外参数的情况下，巧妙地实现了相对位置编码的性质。

二维情形下的几何直觉

假设 Query 向量 $\mathbf{q}$ 和 Key 向量 $\mathbf{k}$ 均为二维向量。
RoPE 的核心操作是：将位置索引 $m$ 映射为旋转角度 $m\theta$ 。

对于位置 $m$ 的向量 $\mathbf{x}_m$ ，我们在二维平面上对其进行逆时针旋转 $m\theta$ ：

f(\mathbf{x}, m) = \mathbf{R}_{m\theta} \cdot \mathbf{x}

其中 $\mathbf{R}_{\alpha}$ 为标准的二维旋转矩阵：

\mathbf{R}_{\alpha} = \begin{pmatrix} \cos \alpha & -\sin \alpha \\ \sin \alpha & \cos \alpha \end{pmatrix}

复数域的代数表示

引入复数可以更简洁地描述这一过程。
将二维实向量 $\mathbf{x} = [x_1, x_2]^\top$ 等距同构为复数 $z = x_1 + i x_2$ 。
此时，旋转操作等价于复数乘法：

f(\mathbf{x}, m) \cong \mathbf{x} \cdot e^{im\theta}

根据欧拉公式 $e^{i\theta} = \cos \theta + i \sin \theta$ ，这对应于复平面上的旋转变换。这种表示法揭示了 RoPE 的代数本质。

相对位置性质的推导

考察两个位置 $m$ 和 $n$ 的 Query 和 Key 的内积（Attention Score）：

\begin{aligned} \langle f(\mathbf{q}, m), f(\mathbf{k}, n) \rangle &= \text{Re}\left( (\mathbf{q} e^{im\theta})^* (\mathbf{k} e^{in\theta}) \right) \\ &= \text{Re}\left( \mathbf{q}^* e^{-im\theta} \mathbf{k} e^{in\theta} \right) \\ &= \text{Re}\left( \mathbf{q}^* \mathbf{k} e^{i(n-m)\theta} \right) \end{aligned}

（注：此处使用复数内积定义 $\langle a, b \rangle = \text{Re}(a^* b)$ ）

使用矩阵形式亦可得出相同结论：

\begin{aligned} \langle f(\mathbf{q}, m), f(\mathbf{k}, n) \rangle &= (\mathbf{R}_{m\theta} \mathbf{q})^\top (\mathbf{R}_{n\theta} \mathbf{k}) \\ &= \mathbf{q}^\top \mathbf{R}_{m\theta}^\top \mathbf{R}_{n\theta} \mathbf{k} \\ &= \mathbf{q}^\top \mathbf{R}_{-m\theta} \mathbf{R}_{n\theta} \mathbf{k} \\ &= \mathbf{q}^\top \mathbf{R}_{(n-m)\theta} \mathbf{k} \end{aligned}

结论：计算结果仅包含 $(n-m)\theta$ ，即相对距离。
绝对位置 $m$ 和 $n$ 在内积运算中，利用旋转矩阵的正交性质（ $\mathbf{R}_{\alpha}^\top \mathbf{R}_{\beta} = \mathbf{R}_{\beta - \alpha}$ ）相互抵消。

这完美实现了：通过绝对位置的编码方式（对每个 token 独立旋转），在内积空间中诱导出了相对位置编码的效果。

高观点：群论与同态

若从群论（Group Theory）的视角审视 RoPE，其有效性并非巧合，而是数学结构的必然。

位置群与变换群

位置空间：离散的位置索引 $n \in \mathbb{Z}$ 构成一个加法群 $(\mathbb{Z}, +)$ 。我们关注的相对位置即为群元素之差 $n-m$ 。
特征空间：复平面上的单位圆群 $U(1) = \{e^{i\theta} \mid \theta \in \mathbb{R}\}$ （同构于二维特殊正交群 $SO(2)$ ）构成一个乘法群。

自然同态（Natural Homomorphism）

RoPE 的本质是构造一个从位置加法群到变换乘法群的群同态（Group Homomorphism）映射 $f: \mathbb{Z} \to U(1)$ ：

f(m+n) = f(m) \cdot f(n)

满足此性质的连续映射形式必然是指数函数：

f(n) = e^{i n \theta}

其中 $\theta$ 为基频。这从理论上解释了为何必须采用指数形式的旋转。

相对位置的自然诱导

由同态性质可知 $f(n) = f(m + (n-m)) = f(m) \cdot f(n-m)$ ，即 $f(n-m) = f(m)^{-1} \cdot f(n)$ （在 $U(1)$ 中， $f(m)^{-1} = f(m)^*$ ）。

在计算 Attention 内积时，变换算子的共轭转置自然出现：

\langle f(m)\mathbf{q}, f(n)\mathbf{k} \rangle = \mathbf{q}^\top f(m)^* f(n) \mathbf{k} = \mathbf{q}^\top f(n-m) \mathbf{k}

中间项 $f(m)^* f(n)$ 依据同态性质“坍缩”为 $f(n-m)$ 。

这意味着：绝对位置的编码通过内积运算，自然地诱导出了相对位置的表示。
RoPE 实际上是找到了整数加法群在复数乘法群上的一个酉表示（Unitary Representation）。

拓展到多维：分组旋转与高效实现

对于高维向量（如 $d=4096$ ），RoPE 采用分组旋转（Block-wise Rotation）策略。
我们将 $d$ 维空间分解为 $d/2$ 个二维子空间，并在每个子空间中应用独立的旋转。
对于第 $i$ 个子空间，分配旋转频率 $\theta_i$ 。通常 $\theta_i$ 遵循几何级数衰减：

\theta_i = 10000^{-2i/d}

高效实现技巧

在工程实现中，无需显式构建稀疏的旋转矩阵。利用复数乘法的性质，可以通过向量的逐元素操作高效计算：

\begin{pmatrix} x_1 \\ x_2 \end{pmatrix} \otimes \begin{pmatrix} \cos \theta \\ \cos \theta \end{pmatrix} + \begin{pmatrix} -x_2 \\ x_1 \end{pmatrix} \otimes \begin{pmatrix} \sin \theta \\ \sin \theta \end{pmatrix}

这仅涉及 Hadamard 积（Element-wise Product）和向量拼接，计算复杂度为 $\mathcal{O}(d)$ 。

旋转位置编码（RoPE）的几何直觉

旋转位置编码（RoPE）的几何直觉

绝对位置 vs 相对位置

绝对位置编码

相对位置编码

RoPE 的核心思想：旋转

二维情形下的几何直觉

复数域的代数表示

相对位置性质的推导

高观点：群论与同态

位置群与变换群

自然同态（Natural Homomorphism）

相对位置的自然诱导

拓展到多维：分组旋转与高效实现

高效实现技巧

远程衰减与外推性

NTK-Aware Scaled RoPE

总结

参考文献