Xenova выпустила ядра WebGPU для Gemma 4, обеспечив производительность на уровне 255 токенов в секунду. Эта оптимизация позволяет плотным моделям работать со скоростью более 100 токенов в секунду в веб-браузерах.

  • Реализация использует технологию WebGPU для ускорения вывода.
  • Производительность достигает 255 ток/с на модели Gemma 4.
  • Демо доступно через пространство Hugging Face webml-community.

Эта скорость позволяет локальным приватным моделям выполнять большинство задач, снижая зависимость от передовых API, таких как Claude или Codex, в повседневной работе.