Los LLM de vanguardia tienen dificultades para escribir núcleos multi-GPU rápidos
ParallelKernelBench evalúa a los LLM en la escritura de núcleos CUDA multi-GPU rápidos para 87 cargas de trabajo reales. El modelo principal genera núcleos que rinden menos de un tercio de la velocidad de las implementaciones óptimas, aunque algunas salidas superan a cualquier código público existente.