Los autores presentan AgenticSTS, un banco de pruebas diseñado para estudiar cómo las capas de memoria explícitas moldean las decisiones de agentes LLM a largo plazo. Utiliza un contrato de memoria acotada en el juego Slay the Spire 2 donde los prompts se ensamblan mediante recuperación tipada en lugar de adjuntar transcripciones en bruto.
- El sistema utiliza una ablación con A0 fijo que muestra que habilitar habilidades estratégicas aumentó las victorias de 3/10 a 6/10 juegos.
- Los benchmarks públicos reportan cero victorias para LLM de vanguardia en la dificultad más baja, mientras que las tasas de victoria humanas son del 16%.
- Un benchmark público en línea de LLMs de vanguardia en Slay the Spire 2 reporta cero victorias en cinco configuraciones.
- El lanzamiento incluye 298 trayectorias completadas con etiquetas de condición, instantáneas congeladas de memoria/habilidad y scripts de análisis.
Este trabajo proporciona una metodología validada y reutilizable para aislar los efectos de componentes específicos de memoria en el diseño de agentes.