作者发布了一个完全本地的、开源的语音到语音后端,专为大型语言模型(LLM)NPC设计,可实现NPC之间的直接交互,无需依赖云服务。该系统集成了语音转文本、本地LLM和文本转语音组件,使NPC能够相互对话、保留上下文并影响未来的玩家互动。
- 延迟目标为400-600毫秒的首次音频时间(TTFA),使用Llama 3.2 3B用于VR或在4070 Ti上使用7B以模拟自然的对话流程。
- 共享生成锁确保同一时间只有一个NPC生成音频,防止GPU过载,同时允许即时切换角色。
- 架构基于WebSocket,通过提供的脚本支持与Unity、Unreal及其他引擎集成。
- 后台Game Manager AI注入行为笔记以引导叙事,而NPC则保持各自的上下文和个性。
该解决方案使开发人员能够实现沉浸式的、自维持的NPC对话,让玩家通过见证有机的互动而非仅仅接收直接答案来增强沉浸感。