Xenova telah merilis kernel WebGPU untuk Gemma 4, mencapai kinerja 255 token per detik. Optimasi ini memungkinkan model padat berjalan dengan kecepatan melebihi 100 T/s di browser web.

  • Implementasi memanfaatkan teknologi WebGPU untuk mempercepat inferensi.
  • Kinerja mencapai 255 tok/s pada model Gemma 4.
  • Demo tersedia melalui ruang Hugging Face webml-community.

Kecepatan ini memungkinkan model pribadi lokal menangani sebagian besar tugas, mengurangi ketergantungan pada API terdepan seperti Claude atau Codex untuk pekerjaan sehari-hari.