ParallelKernelBench оценивает LLM в написании быстрых многопроцессорных CUDA-ядер для 87 реальных рабочих нагрузок. Лучшая модель генерирует ядра, которые работают со скоростью менее трети от скорости оптимальных реализаций, хотя некоторые результаты превосходят любой существующий публичный код.
Передовые LLM испытывают трудности с написанием быстрых многопроцессорных ядер
Переведено с English → Русский