media Together AI Blog · 8 天前 · inference

前沿大语言模型在编写快速多GPU内核方面存在困难

译自 English → 中文

ParallelKernelBench 评估了 LLMs 为 87 个真实工作负载编写快速多 GPU CUDA 内核的能力。顶级模型生成的内核性能不足最优实现的三分之一，尽管少数输出超越了任何现有的公开代码。

重要性 2/3 具有差异化优势的新评测框架可信度 1/3 Together AI Blog Code generation Evaluation & benchmarks