GPT-2 Transformer Block
2026/3/9小于 1 分钟
GPT-2 Transformer Block
题面
实现单个 GPT‑2 解码器块(pre‑norm):x' = x + MHA(LN1(x)),output = x' + FFN(LN2(x')),MHA 为 12 头,FFN 维度 3072,GELU 使用 tanh 近似,LN ϵ=1e‑5,权重按提供的打包布局读取。
Implementation Requirements
- Use only native features (external libraries are not permitted)
- The solve function signature must remain unchanged
- 输出写入
output,按文档的 Weight Layout 取参数
Examples
见页面示例(seq_len=4,768 维,权重打包大小 7,087,872)。
Constraints
- d_model=768,n_heads=12,ffn_dim=3072;1 ≤ seq_len ≤ 4,096;float32
- Performance: seq_len = 1,024