Matrix Addition
2026/6/6大约 1 分钟
Matrix Addition
题目描述
编写一个 GPU 程序,对两个 的 32 位浮点数矩阵进行逐元素加法。程序应接收两个维度相同的输入矩阵,输出一个包含逐元素之和的矩阵:
实现要求
- 不允许使用外部库。
solve函数签名必须保持不变。- 最终结果必须存储在矩阵 中。
示例
示例 1
Input: A = [[1.0, 2.0], [3.0, 4.0]]
B = [[5.0, 6.0], [7.0, 8.0]]
Output: C = [[6.0, 8.0], [10.0, 12.0]]示例 2
Input: A = [[1.5, 2.5, 3.5], [4.5, 5.5, 6.5], [7.5, 8.5, 9.5]]
B = [[0.5, 0.5, 0.5], [0.5, 0.5, 0.5], [0.5, 0.5, 0.5]]
Output: C = [[2.0, 3.0, 4.0], [5.0, 6.0, 7.0], [8.0, 9.0, 10.0]]约束条件
- 输入矩阵 和 维度相同。
- 。
- 所有元素均为 32 位浮点数。
- 性能测试在 的规模下进行。
解题思路
矩阵加法与向量加法类似,属于典型的逐元素映射(Element-wise Map)操作。可以将二维索引 映射到一维线程索引,每个线程独立完成一个元素的加法。计算强度极低(每个元素 1 FLOP,3 次 4 字节内存访问),是典型的内存带宽受限内核。欢迎在 GitHub Discussions 分享你的解法。