media Together AI Blog · 11 д назад · inference

Передовые LLM испытывают трудности с написанием быстрых многопроцессорных ядер

Переведено с English → Русский

ParallelKernelBench оценивает LLM в написании быстрых многопроцессорных CUDA-ядер для 87 реальных рабочих нагрузок. Лучшая модель генерирует ядра, которые работают со скоростью менее трети от скорости оптимальных реализаций, хотя некоторые результаты превосходят любой существующий публичный код.

Важность 2/3 Новый бенчмарк-харнесс с отличиями Доверие 1/3 Together AI Blog Code generation Evaluation & benchmarks

Оригинал