Автор выпустил полностью локальный бэкенд преобразования речи в речь с открытым исходным кодом, предназначенный для NPC на базе больших языковых моделей, который обеспечивает прямые взаимодействия NPC между собой без зависимости от облачных сервисов. Система объединяет компоненты преобразования речи в текст, локальную LLM и преобразования текста в речь, позволяя NPC общаться друг с другом, сохранять контекст и влиять на будущие взаимодействия с игроком.
- Целевая задержка составляет 400-600 мс до первого аудио (TTFA) с использованием Llama 3.2 3B для VR или 7B на 4070 Ti для имитации естественного потока разговора.
- Общий замок генерации гарантирует, что только один NPC генерирует аудио в данный момент, предотвращая перегрузку GPU и позволяя мгновенно переключать персонажей.
- Архитектура основана на WebSocket, поддерживая интеграцию с Unity, Unreal и другими движками через предоставленные скрипты.
- Фоновый Game Manager AI внедряет поведенческие заметки для управления нарративом, в то время как NPC сохраняют индивидуальные контексты и личности.
Это решение позволяет разработчикам реализовывать иммерсивные, самодостаточные диалоги NPC, которые усиливают погружение игрока за счет наблюдения за органичными взаимодействиями, а не просто получения прямых ответов.