ParallelKernelBenchは、87の実ワークロードに対して、LLMが高速なマルチGPU CUDAカーネルを記述する能力を評価します。トップモデルが生成するカーネルは最適実装の速度の3分の1未満のパフォーマンスですが、いくつかの出力は既存の公開コードを上回っています。
フロンティアLLMは高速マルチGPUカーネルの記述で苦戦
翻訳元 English → 日本語
ParallelKernelBenchは、87の実ワークロードに対して、LLMが高速なマルチGPU CUDAカーネルを記述する能力を評価します。トップモデルが生成するカーネルは最適実装の速度の3分の1未満のパフォーマンスですが、いくつかの出力は既存の公開コードを上回っています。