ParallelKernelBench 评估了 LLMs 为 87 个真实工作负载编写快速多 GPU CUDA 内核的能力。顶级模型生成的内核性能不足最优实现的三分之一,尽管少数输出超越了任何现有的公开代码。