Motor de NPC que utiliza modelos locales

Un desarrollador ha creado un backend de motor de NPC agnóstico al juego que aprovecha modelos locales pequeños para lograr tiempos de respuesta rápidos y una calidad decente para juegos de rol. El sistema utiliza NVIDIA Parakeet 0.6 para la conversión de voz a texto, Gemma 4 26B A4B como LLM y Qwen3-TTS para la síntesis de voz.

La arquitectura está fuertemente inspirada en SillyTavern.
Se utiliza Generación Aumentada por Recuperación (RAG) para mantener los prompts ligeros inyectando solo acciones contextualmente relevantes de un gran conjunto.
Este enfoque evita que el modelo se sature con listas gigantes de acciones disponibles en cada turno.

El autor sugiere que este método podría representar el futuro de los RPG a medida que los modelos locales más pequeños continúan mejorando en capacidad.