FP16 Batched Matrix Multiplication
2026/3/9小于 1 分钟
FP16 Batched Matrix Multiplication
题面
实现 FP16 批量矩阵乘:、(FP16/half,行优先),计算 。乘加过程中使用 FP32 累加,结果再转回 FP16。
Implementation Requirements
- External libraries are not permitted
- The solve function signature must remain unchanged
- 乘法累加使用 FP32,C 以 half 存储
Examples
见页面示例(与 FP32 批乘相同维度)。
Constraints
- 1 ≤ B ≤ 128;1 ≤ M,N,K ≤ 1024
- Performance: K = 256, M = 256, N = 256