저자는 클라우드 의존성 없이 NPC 간 직접 상호작용을 가능하게 하는 대규모 언어 모델(NLP) NPC를 위해 설계된 완전한 로컬 음성-음성 백엔드를 공개했습니다. 이 시스템은 음성-텍스트, 로컬 LLM, 텍스트-음성 구성 요소를 통합하여 NPC가 서로 대화하고, 문맥을 유지하며, 미래의 플레이어 상호작용에 영향을 줄 수 있도록 합니다.
- 자연스러운 대화 흐름을 시뮬레이션하기 위해 VR용 Llama 3.2 3B 또는 4070 Ti에서 7B를 사용하여 첫 오디오까지 시간(TTFA) 기준 400-600ms의 지연 목표 달성.
- 공유 생성 잠금으로 한 번에 하나의 NPC만 음성을 생성하여 GPU 과부하를 방지하고 즉시 캐릭터 전환을 허용합니다.
- 아키텍처는 WebSocket 기반이며, 제공된 스크립트를 통해 Unity, Unreal 및 기타 엔진과의 통합을 지원합니다.
- 백그라운드 게임 관리자 AI가 서사를 유도하기 위해 행동 메모를 주입하고, NPC는 개별 문맥과 성격을 유지합니다.
이 솔루션은 개발자가 플레이어의 몰입감을 높이는 유기적 상호작용을 직접적인 답변뿐만 아니라 목격할 수 있는 몰입감 있고 자기 지속형 NPC 대화를 구현할 수 있게 합니다.