Xenova 发布了 Gemma 4 的 WebGPU 内核,实现了每秒 255 个 token 的性能。此优化使密集模型在 Web 浏览器中的运行速度超过 100 tok/s。
- 该实现利用 WebGPU 技术加速推理。
- 在 Gemma 4 模型上性能达到 255 tok/s。
- 可通过 webml-community Hugging Face 空间查看演示。
此速度使本地私有模型能够处理大多数任务,减少对 Claude 或 Codex 等前沿 API 在日常工作中的依赖。
Xenova 发布了 Gemma 4 的 WebGPU 内核,实现了每秒 255 个 token 的性能。此优化使密集模型在 Web 浏览器中的运行速度超过 100 tok/s。
此速度使本地私有模型能够处理大多数任务,减少对 Claude 或 Codex 等前沿 API 在日常工作中的依赖。