专题：LeetGPU - 从零手写 CUDA 算子

agicy2026/3/9大约 6 分钟

专题：LeetGPU - 从零手写 CUDA 算子

在这个 AI 爆发的时代，GPU 编程已经成为高性能计算和深度学习系统的基石。然而，许多开发者对 CUDA 的理解仅停留在调用 PyTorch 或 Triton 的层面。

本专题 (LeetGPU) 旨在通过一系列由浅入深的编程挑战，带你亲手实现从基础向量加法到 GPT-2 Transformer Block 的核心算子。每一个挑战都不仅是代码实现，更是对并行计算思维、内存层次结构和硬件特性的深度探索。

特别值得强调的是，从 CPU 到 GPU 的编程思维转变，核心在于从“以指令为中心”转向“以数据为中心”，以及在具体算子实现中灵活运用“以输入为中心（Input-centric / Scatter）”与“以输出为中心（Output-centric / Gather）”的计算模式。理解这些模式的适用场景（如写冲突处理、访存合并等），是写出高性能 Kernel 的关键。

矩阵乘法（GEMM） 是以输出为中心的极致体现：每个输出元素 C[i][j] 收集（Gather）了 A 的行和 B 的列的所有数据。而稀疏矩阵运算（SpMV/SpMM）则需要根据存储格式（CSR vs CSC）在 Gather 和 Scatter 模式之间权衡，以应对不规则的内存访问。

Matrix Multiplication Easy
Matrix Transpose Easy
Dot Product Medium
Matrix Power Medium
General Matrix Multiplication (GEMM) Medium
Batched Matrix Multiplication Medium
Sparse Matrix-Vector Multiplication Medium
Sparse Matrix-Dense Matrix Multiplication Medium

3. 并行算法模式 (Parallel Patterns)

掌握并行计算中的经典模式，这是构建复杂算子的积木。本章节涵盖了Map（映射）、Reduce（规约）、Scan（扫描/前缀和）、Stencil（模版）、Scatter/Gather（散布/聚集）、Sort（排序）以及 Filter/Compact（过滤/压缩）等核心模式。

本章正式引入模式对比：Scan 和 Stencil 是典型的以输出为中心（Gather）模式；而 Histogramming（直方图） 则是经典的以输入为中心（Input-centric / Scatter）模式（每个线程处理一个输入数据，竞争写入输出 Bin，需使用 Atomic 操作解决冲突）。Sort（排序） 和 Reduce（规约） 则往往需要在多个阶段中交替使用这两种思维。