Kernels WebGPU para Gemma 4 alcançam 255 tok/s

Xenova lançou kernels WebGPU para o Gemma 4, alcançando uma performance de 255 tokens por segundo. Esta otimização permite que modelos densos rodem a velocidades superiores a 100 tok/s em navegadores web.

A implementação utiliza a tecnologia WebGPU para acelerar a inferência.
O desempenho atinge 255 tok/s no modelo Gemma 4.
Uma demo está disponível através do espaço Hugging Face webml-community.

Esta velocidade permite que modelos privados locais lidem com a maioria das tarefas, reduzindo a dependência de APIs de ponta como Claude ou Codex para o trabalho diário.