XenovaはGemma 4用のWebGPUカーネルをリリースし、255トークン/秒のパフォーマンスを実現しました。この最適化により、密集モデルがウェブブラウザで100 T/sを超える速度で実行可能になります。
- 実装は推論の高速化にWebGPU技術を利用しています。
- Gemma 4モデルでパフォーマンスは255 tok/sに達します。
- webml-community Hugging Faceスペース経由でデモが利用可能です。
この速度により、ローカルのプライベートモデルがほとんどのタスクを処理でき、日常業務におけるClaudeやCodexなどの最先端APIへの依存を減らせます。