Hugging Face의 Andi는 음성 상호작용 파이프라인을 생성하는 완전한 오픈소스이고 무료인 데모를 출시했습니다. 이 시스템은 Nvidia의 parakeet, Cerebras가 서빙하는 Gemma 4 31B 모델, 그리고 Qwen3TTS에 대한 커스텀 추론을 통합합니다.

  • 이 스택은 OpenAI의 실시간 API를 대체할 수 있습니다.
  • 낮은 지연 시간으로 웹을 보고 검색하도록 설계되었습니다.
  • 로컬 실행이 지원되며, MacBook Pro M3 36GB에서 Gemma 4 E4B를 사용하여 유사한 지연 시간을 달성했습니다.
  • Hugging Face Spaces의 hf-realtime-voice에서 클라우드 기반 웹 데모를 사용할 수 있습니다.

이 파이프라인은 사용자가 로컬 음성 상호작용을 실행할 수 있게 하며, Reachy Minis의 핵심 기술로 사용됩니다.