Xenova ने Gemma 4 के लिए WebGPU kernels जारी किए हैं, जिसमें 255 tokens per second की प्रदर्शन क्षमता प्राप्त हुई है। यह अनुकूलन घने मॉडलों को वेब ब्राउज़र में 100 tok/s से अधिक गति पर चलाने सक्षम बनाता है।
- कार्यान्वयन इनफरेंस को त्वरित करने के लिए WebGPU तकनीक का उपयोग करता है।
- Gemma 4 मॉडल पर प्रदर्शन 255 tok/s तक पहुंचता है।
- webml-community Hugging Face स्पेस के माध्यम से एक डेमो उपलब्ध है।
यह गति स्थानीय निजी मॉडलों को अधिकांश कार्यों को संभालने देती है, जिससे दैनिक कार्य के लिए Claude या Codex जैसे फ्रंटियर APIs पर निर्भरता कम हो जाती है।