在这个 AI 爆发的时代,GPU 编程已经成为高性能计算和深度学习系统的基石。然而,许多开发者对 CUDA 的理解仅停留在调用 PyTorch 或 Triton 的层面。
本专题 (LeetGPU) 旨在通过一系列由浅入深的编程挑战,带你亲手实现从基础向量加法到 GPT-2 Transformer Block 的核心算子。每一个挑战都不仅是代码实现,更是对并行计算思维、内存层次结构和硬件特性的深度探索。
特别值得强调的是,从 CPU 到 GPU 的编程思维转变,核心在于从“以指令为中心”转向“以数据为中心”,以及在具体算子实现中灵活运用“以输入为中心(Input-centric / Scatter)”与“以输出为中心(Output-centric / Gather)”的计算模式。理解这些模式的适用场景(如写冲突处理、访存合并等),是写出高性能 Kernel 的关键。