Xenova выпустила ядра WebGPU для Gemma 4, обеспечив производительность на уровне 255 токенов в секунду. Эта оптимизация позволяет плотным моделям работать со скоростью более 100 токенов в секунду в веб-браузерах.
- Реализация использует технологию WebGPU для ускорения вывода.
- Производительность достигает 255 ток/с на модели Gemma 4.
- Демо доступно через пространство Hugging Face webml-community.
Эта скорость позволяет локальным приватным моделям выполнять большинство задач, снижая зависимость от передовых API, таких как Claude или Codex, в повседневной работе.