Xenova a publié des noyaux WebGPU pour Gemma 4, atteignant une performance de 255 tokens par seconde. Cette optimisation permet aux modèles denses de s'exécuter à des vitesses dépassant 100 T/s dans les navigateurs web.
- L'implémentation utilise la technologie WebGPU pour accélérer l'inférence.
- La performance atteint 255 tok/s sur le modèle Gemma 4.
- Une démo est disponible via l'espace Hugging Face de webml-community.
Cette vitesse permet aux modèles locaux privés de gérer la plupart des tâches, réduisant ainsi la dépendance aux API de pointe comme Claude ou Codex pour le travail quotidien.