Авторы представляют AgenticSTS, тестовую среду, предназначенную для изучения того, как явные слои памяти влияют на решения долгосрочных LLM-агентов. Она использует контракт с ограниченной памятью в игре Slay the Spire 2, где промпты формируются путем типизированного поиска, а не путем добавления сырых транскриптов.

  • Система использует абляцию с фиксированным A0, показывающую, что включение стратегических навыков увеличило количество побед с 3/10 до 6/10 игр.
  • Публичные бенчмарки сообщают о нулевых победах передовых LLM на самом низком уровне сложности, в то время как уровень побед людей составляет 16%.
  • Публичный онлайн-бенчмарк передовых LLM в Slay the Spire 2 сообщает о нулевых победах во всех пяти конфигурациях.
  • В релиз включены 298 завершенных траекторий с тегами условий, замороженными снимками памяти/навыков и скриптами анализа.

Эта работа предоставляет проверенную, повторно используемую методологию для изоляции эффектов конкретных компонентов памяти в дизайне агентов.