ParallelKernelBench оценивает LLMs по написанию быстрых много-GPU CUDA-ядер для 87 реальных задач. Наиболее сильная модель генерирует ядра, которые работают на треть скорости оптимальных реализаций, хотя несколько выводов превосходят любые существующие публичные коды.
Frontier LLMs Struggle to Write Fast Multi-GPU Kernels
Переведено с English → Русский