Авторы представляют AgenticSTS, тестовую среду, предназначенную для изучения того, как явные слои памяти влияют на решения долгосрочных LLM-агентов. Она использует контракт с ограниченной памятью в игре Slay the Spire 2, где промпты формируются путем типизированного поиска, а не путем добавления сырых транскриптов.
- Система использует абляцию с фиксированным A0, показывающую, что включение стратегических навыков увеличило количество побед с 3/10 до 6/10 игр.
- Публичные бенчмарки сообщают о нулевых победах передовых LLM на самом низком уровне сложности, в то время как уровень побед людей составляет 16%.
- Публичный онлайн-бенчмарк передовых LLM в Slay the Spire 2 сообщает о нулевых победах во всех пяти конфигурациях.
- В релиз включены 298 завершенных траекторий с тегами условий, замороженными снимками памяти/навыков и скриптами анализа.
Эта работа предоставляет проверенную, повторно используемую методологию для изоляции эффектов конкретных компонентов памяти в дизайне агентов.