O autor lançou um backend de fala-para-fala totalmente local e de código aberto, projetado para NPCs de Modelos de Linguagem Grande que permite interações diretas entre NPC sem dependência de nuvem. O sistema integra componentes de fala-para-texto, um LLM local e texto-para-fala para permitir que os NPCs conversem entre si, retenham o contexto e influenciem as interações futuras com o jogador.

  • Alvos de latência de 400-600ms Tempo até o Primeiro Áudio (TTFA) usando Llama 3.2 3B para VR ou 7B em uma 4070 Ti para simular um fluxo de conversa natural.
  • Um bloqueio de geração compartilhado garante que apenas um NPC gere áudio por vez, evitando sobrecarga da GPU enquanto permite troca instantânea de personagens.
  • A arquitetura é baseada em WebSocket, suportando integração com Unity, Unreal e outros motores por meio de scripts fornecidos.
  • Um Game Manager AI em segundo plano injeta notas comportamentais para direcionar a narrativa, enquanto os NPCs mantêm contextos e personalidades individuais.

Esta solução permite que desenvolvedores implementem diálogos de NPC imersivos e auto-sustentáveis que aumentam a imersão do jogador ao testemunhar interações orgânicas em vez de apenas receber respostas diretas.