ParallelKernelBench évalue les LLM sur la rédaction de noyaux CUDA multi-GPU rapides pour 87 charges de travail réelles. Le meilleur modèle génère des noyaux qui atteignent moins du tiers de la vitesse des implémentations optimales, bien que quelques sorties surpassent tout code public existant.