O ParallelKernelBench avalia LLMs na escrita de kernels CUDA multi-GPU rápidos para 87 cargas de trabalho reais. O modelo principal gera kernels que performam menos de um terço da velocidade das implementações ótimas, embora algumas saídas superem qualquer código público existente.