Un desarrollador ha creado un backend de motor de NPC agnóstico al juego que aprovecha modelos locales pequeños para lograr tiempos de respuesta rápidos y una calidad decente para juegos de rol. El sistema utiliza NVIDIA Parakeet 0.6 para la conversión de voz a texto, Gemma 4 26B A4B como LLM y Qwen3-TTS para la síntesis de voz.

  • La arquitectura está fuertemente inspirada en SillyTavern.
  • Se utiliza Generación Aumentada por Recuperación (RAG) para mantener los prompts ligeros inyectando solo acciones contextualmente relevantes de un gran conjunto.
  • Este enfoque evita que el modelo se sature con listas gigantes de acciones disponibles en cada turno.

El autor sugiere que este método podría representar el futuro de los RPG a medida que los modelos locales más pequeños continúan mejorando en capacidad.