이 프로젝트는 듣고, 말하고, 동적인 표정과 손 제스처를 표시하는 3D 아바터를 통해 Gemma 4 31B 모델과 음성 채팅을 가능하게 합니다. 시스템은 LLM에 set_mood, make_hand_gesture, make_facial_expression 등의 함수 도구를 노출하여 아바트의 반응을 자율적으로 결정할 수 있도록 합니다.
- 스택에는 silero VAD, STT용 parakeet, Qwen3-TTS, Cerebras가 제공하는 Gemma 4 31B를 포함한 오픈 모델이 사용됩니다.
- 통신은 평범한 WebSocket 연결을 통한 원시 PCM으로 발생합니다.
- 입모양 동기화 및 아바터 렌더링은 met4citizen의 TalkingHead 및 HeadAudio 프로젝트에서 처리합니다.
이 설정은 실시간 상호작용형 멀티모달 AI 경험을 위해 여러 오픈소스 구성 요소를 통합하는 방법을 보여줍니다.