El autor ha lanzado un backend de voz a voz completamente local y de código abierto diseñado para NPCs de Modelos de Lenguaje Grande que permite interacciones directas entre NPC sin dependencia de la nube. El sistema integra componentes de voz a texto, un LLM local y texto a voz para permitir que los NPCs conversen entre sí, retengan el contexto e influyan en las interacciones futuras con el jugador.

  • Los objetivos de latencia son de 400-600ms Tiempo hasta el Primer Audio (TTFA) usando Llama 3.2 3B para VR o 7B en una 4070 Ti para simular un flujo de conversación natural.
  • Un bloqueo de generación compartido asegura que solo un NPC genere audio a la vez, evitando la sobrecarga de la GPU mientras permite cambios instantáneos de personaje.
  • La arquitectura se basa en WebSocket, admitiendo integración con Unity, Unreal y otros motores mediante scripts proporcionados.
  • Una IA de Game Manager en segundo plano inyecta notas de comportamiento para dirigir la narrativa, mientras que los NPCs mantienen contextos y personalidades individuales.

Esta solución permite a los desarrolladores implementar diálogos de NPC inmersivos y autosuficientes que mejoran la inmersión del jugador al presenciar interacciones orgánicas en lugar de simplemente recibir respuestas directas.