ParallelKernelBench mengevaluasi LLM dalam menulis kernel CUDA multi-GPU cepat untuk 87 beban kerja nyata. Model teratas menghasilkan kernel yang performanya di bawah sepertiga kecepatan implementasi optimal, meskipun beberapa output melampaui kode publik apa pun yang ada.