Backend de LLM local open-source para conversas entre NPCs

O autor lançou um backend de fala-para-fala totalmente local e de código aberto, projetado para NPCs de Modelos de Linguagem Grande que permite interações diretas entre NPC sem dependência de nuvem. O sistema integra componentes de fala-para-texto, um LLM local e texto-para-fala para permitir que os NPCs conversem entre si, retenham o contexto e influenciem as interações futuras com o jogador.

Alvos de latência de 400-600ms Tempo até o Primeiro Áudio (TTFA) usando Llama 3.2 3B para VR ou 7B em uma 4070 Ti para simular um fluxo de conversa natural.
Um bloqueio de geração compartilhado garante que apenas um NPC gere áudio por vez, evitando sobrecarga da GPU enquanto permite troca instantânea de personagens.
A arquitetura é baseada em WebSocket, suportando integração com Unity, Unreal e outros motores por meio de scripts fornecidos.
Um Game Manager AI em segundo plano injeta notas comportamentais para direcionar a narrativa, enquanto os NPCs mantêm contextos e personalidades individuais.

Esta solução permite que desenvolvedores implementem diálogos de NPC imersivos e auto-sustentáveis que aumentam a imersão do jogador ao testemunhar interações orgânicas em vez de apenas receber respostas diretas.