AgenticSTS: Un banco de pruebas de memoria acotada para agentes LLM de largo horizonte

Los autores presentan AgenticSTS, un banco de pruebas diseñado para estudiar cómo las capas de memoria explícitas moldean las decisiones de agentes LLM a largo plazo. Utiliza un contrato de memoria acotada en el juego Slay the Spire 2 donde los prompts se ensamblan mediante recuperación tipada en lugar de adjuntar transcripciones en bruto.

El sistema utiliza una ablación con A0 fijo que muestra que habilitar habilidades estratégicas aumentó las victorias de 3/10 a 6/10 juegos.
Los benchmarks públicos reportan cero victorias para LLM de vanguardia en la dificultad más baja, mientras que las tasas de victoria humanas son del 16%.
Un benchmark público en línea de LLMs de vanguardia en Slay the Spire 2 reporta cero victorias en cinco configuraciones.
El lanzamiento incluye 298 trayectorias completadas con etiquetas de condición, instantáneas congeladas de memoria/habilidad y scripts de análisis.

Este trabajo proporciona una metodología validada y reutilizable para aislar los efectos de componentes específicos de memoria en el diseño de agentes.