このプロジェクトは、聴取、発話、動的な表情や手のジェスチャーを表示する3Dアバターを通じて、Gemma 4 31Bモデルとの音声チャットを可能にします。システムはLLMに対してset_mood、make_hand_gesture、make_facial_expressionなどの関数ツールを公開し、アバターの反応を自律的に決定できるようにします。

  • スタックには、silero VAD、STT用のparakeet、Qwen3-TTS、Cerebrasによって提供されるGemma 4 31Bを含むオープンモデルが使用されています。
  • 通信はプレーンなWebSocket接続経由の生PCMで行われます。
  • 口元同期とアバターのレンダリングは、met4citizenのTalkingHeadおよびHeadAudioプロジェクトによって処理されます。

このセットアップは、リアルタイムでインタラクティブなマルチモーダルAI体験のために複数のオープンソースコンポーネントを統合する方法を示しています。