L'auteur a publié un backend de synthèse vocale entièrement local conçu pour les PNJ basés sur des grands modèles de langage (LLM), permettant des interactions directes entre PNJ sans dépendance au cloud. Le système intègre la reconnaissance vocale, un LLM local et la synthèse vocale pour permettre aux PNJ de converser, de conserver le contexte et d'influencer les interactions futures avec le joueur.
- Objectif de latence de 400 à 600 ms pour le temps jusqu'au premier audio (TTFA) en utilisant Llama 3.2 3B pour la VR ou 7B sur une 4070 Ti pour simuler un flux de conversation naturel.
- Un verrou de génération partagé garantit qu'un seul PNJ génère de l'audio à la fois, évitant la surcharge du GPU tout en permettant un changement instantané de personnage.
- L'architecture est basée sur WebSocket, prenant en charge l'intégration avec Unity, Unreal et d'autres moteurs via des scripts fournis.
- Un gestionnaire de jeu IA en arrière-plan injecte des notes comportementales pour orienter le récit, tandis que les PNJ maintiennent leurs contextes et personnalités individuels.
Cette solution permet aux développeurs de mettre en œuvre des dialogues de PNJ immersifs et autosuffisants qui améliorent l'immersion du joueur en lui permettant d'assister à des interactions organiques plutôt que de simplement recevoir des réponses directes.