ParallelKernelBench оценивает LLM в написании быстрых многопроцессорных CUDA-ядер для 87 реальных рабочих нагрузок. Лучшая модель генерирует ядра, которые работают со скоростью менее трети от скорости оптимальных реализаций, хотя некоторые результаты превосходят любой существующий публичный код.