该项目通过一个能听、能说并展示动态面部表情和手势的 3D 头像,实现与 Gemma 4 31B 模型的语音聊天。系统向 LLM 暴露了 set_mood、make_hand_gesture 和 make_facial_expression 等功能工具,使其能够自主决定头像的反应。

  • 该堆栈使用开源模型,包括 silero VAD、用于 STT 的 parakeet、Qwen3-TTS 以及由 Cerebras 提供的 Gemma 4 31B。
  • 通信通过普通 WebSocket 连接上的原始 PCM 进行。
  • 口型同步和头像渲染由 met4citizen 的 TalkingHead 和 HeadAudio 项目处理。

此设置展示了如何集成多个开源组件,以实现实时的交互式多模态 AI 体验。