Xenova ha lanzado kernels WebGPU para Gemma 4, logrando un rendimiento de 255 tokens por segundo. Esta optimización permite que los modelos densos funcionen a velocidades superiores a 100 tok/s en navegadores web.

  • La implementación utiliza la tecnología WebGPU para acelerar la inferencia.
  • El rendimiento alcanza 255 tok/s en el modelo Gemma 4.
  • Hay una demo disponible a través del espacio de Hugging Face webml-community.

Esta velocidad permite que los modelos privados locales manejen la mayoría de las tareas, reduciendo la dependencia de APIs de vanguardia como Claude o Codex para el trabajo diario.