XenovaはGemma 4用のWebGPUカーネルをリリースし、255トークン/秒のパフォーマンスを実現しました。この最適化により、密集モデルがウェブブラウザで100 T/sを超える速度で実行可能になります。

  • 実装は推論の高速化にWebGPU技術を利用しています。
  • Gemma 4モデルでパフォーマンスは255 tok/sに達します。
  • webml-community Hugging Faceスペース経由でデモが利用可能です。

この速度により、ローカルのプライベートモデルがほとんどのタスクを処理でき、日常業務におけるClaudeやCodexなどの最先端APIへの依存を減らせます。