Xenova telah merilis kernel WebGPU untuk Gemma 4, mencapai kinerja 255 token per detik. Optimasi ini memungkinkan model padat berjalan dengan kecepatan melebihi 100 T/s di browser web.
- Implementasi memanfaatkan teknologi WebGPU untuk mempercepat inferensi.
- Kinerja mencapai 255 tok/s pada model Gemma 4.
- Demo tersedia melalui ruang Hugging Face webml-community.
Kecepatan ini memungkinkan model pribadi lokal menangani sebagian besar tugas, mengurangi ketergantungan pada API terdepan seperti Claude atau Codex untuk pekerjaan sehari-hari.