Los autores presentan AgenticSTS, un banco de pruebas diseñado para estudiar cómo las capas de memoria explícitas moldean las decisiones de agentes LLM a largo plazo. Utiliza un contrato de memoria acotada en el juego Slay the Spire 2 donde los prompts se ensamblan mediante recuperación tipada en lugar de adjuntar transcripciones en bruto.

  • El sistema utiliza una ablación con A0 fijo que muestra que habilitar habilidades estratégicas aumentó las victorias de 3/10 a 6/10 juegos.
  • Los benchmarks públicos reportan cero victorias para LLM de vanguardia en la dificultad más baja, mientras que las tasas de victoria humanas son del 16%.
  • Un benchmark público en línea de LLMs de vanguardia en Slay the Spire 2 reporta cero victorias en cinco configuraciones.
  • El lanzamiento incluye 298 trayectorias completadas con etiquetas de condición, instantáneas congeladas de memoria/habilidad y scripts de análisis.

Este trabajo proporciona una metodología validada y reutilizable para aislar los efectos de componentes específicos de memoria en el diseño de agentes.