media Together AI Blog · il y a 8 j · inference

Les LLM de pointe peinent à écrire des noyaux multi-GPU rapides

Traduit de English → Français

ParallelKernelBench évalue les LLM sur la rédaction de noyaux CUDA multi-GPU rapides pour 87 charges de travail réelles. Le meilleur modèle génère des noyaux qui atteignent moins du tiers de la vitesse des implémentations optimales, bien que quelques sorties surpassent tout code public existant.

Importance 2/3 Nouveau cadre d'évaluation avec différenciateurs Confiance 1/3 Together AI Blog Code generation Evaluation & benchmarks

Lire l'original