Gemma Avatar：与 Gemma 4-31B 面对面交谈

该项目通过一个能听、能说并展示动态面部表情和手势的 3D 头像，实现与 Gemma 4 31B 模型的语音聊天。系统向 LLM 暴露了 set_mood、make_hand_gesture 和 make_facial_expression 等功能工具，使其能够自主决定头像的反应。

该堆栈使用开源模型，包括 silero VAD、用于 STT 的 parakeet、Qwen3-TTS 以及由 Cerebras 提供的 Gemma 4 31B。
通信通过普通 WebSocket 连接上的原始 PCM 进行。
口型同步和头像渲染由 met4citizen 的 TalkingHead 和 HeadAudio 项目处理。

此设置展示了如何集成多个开源组件，以实现实时的交互式多模态 AI 体验。