ParallelKernelBenchは、87の実ワークロードに対して、LLMが高速なマルチGPU CUDAカーネルを記述する能力を評価します。トップモデルが生成するカーネルは最適実装の速度の3分の1未満のパフォーマンスですが、いくつかの出力は既存の公開コードを上回っています。