Xenova는 Gemma 4용 WebGPU 커널을 출시하여 초당 255개의 토큰 성능을 달성했습니다. 이 최적화를 통해 밀집 모델이 웹 브라우저에서 초당 100 T 이상의 속도로 실행될 수 있습니다.
- 구현은 추론 가속화를 위해 WebGPU 기술을 활용합니다.
- Gemma 4 모델에서 성능은 255 tok/s에 도달합니다.
- webml-community Hugging Face 스페이스를 통해 데모를 이용할 수 있습니다.
이 속도는 로컬 프라이빗 모델이 대부분의 작업을 처리할 수 있게 하여, 일상적인 작업에서 Claude나 Codex와 같은 최전선 API에 대한 의존도를 줄여줍니다.