Andi de Hugging Face a publié une démo entièrement open-source et gratuite qui crée un pipeline d'interaction vocale. Le système intègre parakeet de Nvidia, le modèle Gemma 4 31B servi par Cerebras, et une inférence personnalisée pour Qwen3TTS.

  • La pile fonctionne comme un remplacement direct de l'API temps réel d'OpenAI.
  • Elle est conçue pour voir et rechercher sur le web avec une faible latence.
  • L'exécution locale est prise en charge, avec des latences similaires obtenues sur un MacBook Pro M3 36Go en utilisant Gemma 4 E4B.
  • Une démo web basée sur le cloud est disponible sur hf-realtime-voice dans les espaces Hugging Face.

Ce pipeline permet aux utilisateurs d'exécuter des interactions vocales locales et sert de technologie sous-jacente pour Reachy Minis.