Kernel WebGPU Gemma 4 Mencapai 255 tok/s

Xenova telah merilis kernel WebGPU untuk Gemma 4, mencapai kinerja 255 token per detik. Optimasi ini memungkinkan model padat berjalan dengan kecepatan melebihi 100 T/s di browser web.

Implementasi memanfaatkan teknologi WebGPU untuk mempercepat inferensi.
Kinerja mencapai 255 tok/s pada model Gemma 4.
Demo tersedia melalui ruang Hugging Face webml-community.

Kecepatan ini memungkinkan model pribadi lokal menangani sebagian besar tugas, mengurangi ketergantungan pada API terdepan seperti Claude atau Codex untuk pekerjaan sehari-hari.