O ParallelKernelBench avalia LLMs na escrita de kernels CUDA multi-GPU rápidos para 87 cargas de trabalho reais. O modelo principal gera kernels que performam menos de um terço da velocidade das implementações ótimas, embora algumas saídas superem qualquer código público existente.
LLMs de fronteira têm dificuldade em escrever kernels multi-GPU rápidos
Traduzido do English → Português (BR)