media r/LocalLLaMA · 1 小时前 · open_models

Gemma 4 WebGPU 内核实现 255 tok/s

译自 English → 中文

Xenova 发布了 Gemma 4 的 WebGPU 内核，实现了每秒 255 个 token 的性能。此优化使密集模型在 Web 浏览器中的运行速度超过 100 tok/s。

此速度使本地私有模型能够处理大多数任务，减少对 Claude 或 Codex 等前沿 API 在日常工作中的依赖。

重要性 1/3 r/LocalLLaMA Inference efficiency