Этот проект позволяет вести голосовой чат с моделью Gemma 4 31B через 3D аватар, который слушает, говорит и демонстрирует динамические мимику и жесты рук. Система предоставляет LLM функциональные инструменты, такие как set_mood, make_hand_gesture и make_facial_expression, позволяя ему автономно принимать решения о реакциях аватара.
- Стек использует открытые модели, включая silero VAD, parakeet для STT, Qwen3-TTS и Gemma 4 31B, обслуживаемую Cerebras.
- Общение происходит через сырой PCM по обычному WebSocket-соединению.
- Синхронизация губ и рендеринг аватара обрабатываются проектами TalkingHead и HeadAudio от met4citizen.
Эта настройка демонстрирует, как интегрировать несколько компонентов с открытым исходным кодом для создания интерактивных мультимодальных AI-опытов в реальном времени.