Andi de Hugging Face ha lanzado una demo totalmente de código abierto y gratuita que crea una canalización de interacción por voz. El sistema integra Nvidia parakeet, el modelo Gemma 4 31B servido por Cerebras, e inferencia personalizada para Qwen3TTS.

  • La pila funciona como un reemplazo directo para la API en tiempo real de OpenAI.
  • Está diseñada para ver y buscar en la web con baja latencia.
  • Se admite la ejecución local, logrando latencias similares en un MacBook Pro M3 36GB utilizando Gemma 4 E4B.
  • Hay una demo web en la nube disponible en hf-realtime-voice en Hugging Face Spaces.

Esta canalización permite a los usuarios ejecutar interacciones de voz locales y sirve como la tecnología subyacente para Reachy Minis.