Este proyecto permite chatear por voz con el modelo Gemma 4 31B a través de un avatar 3D que escucha, habla y muestra expresiones faciales dinámicas y gestos con las manos. El sistema expone herramientas funcionales como set_mood, make_hand_gesture y make_facial_expression al LLM, permitiéndole decidir autónomamente las reacciones del avatar.
- La pila utiliza modelos abiertos que incluyen silero VAD, parakeet para STT, Qwen3-TTS y Gemma 4 31B servido por Cerebras.
- La comunicación ocurre a través de PCM sin procesar sobre una conexión WebSocket estándar.
- La sincronización labial y la renderización del avatar son manejadas por los proyectos TalkingHead y HeadAudio de met4citizen.
Esta configuración demuestra cómo integrar múltiples componentes de código abierto para experiencias de IA multimodal interactivas en tiempo real.