Este projeto permite bate-papo por voz com o modelo Gemma 4 31B através de um avatar 3D que escuta, fala e exibe expressões faciais dinâmicas e gestos com as mãos. O sistema expõe ferramentas funcionais como set_mood, make_hand_gesture e make_facial_expression ao LLM, permitindo que ele decida autonomamente as reações do avatar.

  • A pilha usa modelos abertos incluindo silero VAD, parakeet para STT, Qwen3-TTS e Gemma 4 31B servido pela Cerebras.
  • A comunicação ocorre via PCM bruto sobre uma conexão WebSocket padrão.
  • A sincronização labial e a renderização do avatar são tratadas pelos projetos TalkingHead e HeadAudio da met4citizen.

Esta configuração demonstra como integrar múltiplos componentes de código aberto para experiências de IA multimodal interativas em tempo real.