Hugging FaceのAndi氏は、音声対話パイプラインを構築する完全オープンソースで無料のデモを公開しました。このシステムは、Nvidiaのparakeet、Cerebrasによって提供されるGemma 4 31Bモデル、およびQwen3TTSのカスタム推論を組み合わせています。

  • このスタックはOpenAIのリアルタイムAPIのドロップイン代替として機能します。
  • 低遅延でウェブを閲覧・検索するように設計されています。
  • ローカル実行がサポートされており、MacBook Pro M3 36GBでGemma 4 E4Bを使用して同様の遅延が達成されました。
  • Hugging Face Spacesのhf-realtime-voiceでクラウドベースのウェブデモが利用可能です。

このパイプラインにより、ユーザーはローカルでの音声対話を実行でき、Reachy Minisの基盤技術となっています。