Les noyaux WebGPU pour Gemma 4 atteignent 255 tok/s

Xenova a publié des noyaux WebGPU pour Gemma 4, atteignant une performance de 255 tokens par seconde. Cette optimisation permet aux modèles denses de s'exécuter à des vitesses dépassant 100 T/s dans les navigateurs web.

L'implémentation utilise la technologie WebGPU pour accélérer l'inférence.
La performance atteint 255 tok/s sur le modèle Gemma 4.
Une démo est disponible via l'espace Hugging Face de webml-community.

Cette vitesse permet aux modèles locaux privés de gérer la plupart des tâches, réduisant ainsi la dépendance aux API de pointe comme Claude ou Codex pour le travail quotidien.