media Together AI Blog · 8日前 · inference

フロンティアLLMは高速マルチGPUカーネルの記述で苦戦

翻訳元 English → 日本語

ParallelKernelBenchは、87の実ワークロードに対して、LLMが高速なマルチGPU CUDAカーネルを記述する能力を評価します。トップモデルが生成するカーネルは最適実装の速度の3分の1未満のパフォーマンスですが、いくつかの出力は既存の公開コードを上回っています。

重要度 2/3 差別化要素を備えた新しい評価ハーネス信頼度 1/3 Together AI Blog Code generation Evaluation & benchmarks