ParallelKernelBench 评估了 LLMs 为 87 个真实工作负载编写快速多 GPU CUDA 内核的能力。顶级模型生成的内核性能不足最优实现的三分之一,尽管少数输出超越了任何现有的公开代码。
前沿大语言模型在编写快速多GPU内核方面存在困难
译自 English → 中文
ParallelKernelBench 评估了 LLMs 为 87 个真实工作负载编写快速多 GPU CUDA 内核的能力。顶级模型生成的内核性能不足最优实现的三分之一,尽管少数输出超越了任何现有的公开代码。