Xenova lançou kernels WebGPU para o Gemma 4, alcançando uma performance de 255 tokens por segundo. Esta otimização permite que modelos densos rodem a velocidades superiores a 100 tok/s em navegadores web.
- A implementação utiliza a tecnologia WebGPU para acelerar a inferência.
- O desempenho atinge 255 tok/s no modelo Gemma 4.
- Uma demo está disponível através do espaço Hugging Face webml-community.
Esta velocidade permite que modelos privados locais lidem com a maioria das tarefas, reduzindo a dependência de APIs de ponta como Claude ou Codex para o trabalho diário.