저자들은 명시적 메모리 계층이 장기 지평 LLM 에이전트 결정에 어떻게 영향을 미치는지 연구하도록 설계된 테스트베드인 AgenticSTS를 소개합니다. 이는 원본 기록을 추가하는 대신 유형 기반 검색으로 프롬프트를 조립하는 Slay the Spire 2 게임의 제한 메모리 계약을 활용합니다.

  • 시스템은 고정-A0 ablation을 사용하며, 전략적 기술을 활성화하면 승률이 10게임 중 3에서 6으로 증가했음을 보여줍니다.
  • 공개 벤치마크는 최저 난이도에서 최첨단 LLM의 승률이 0이라고 보고하는 반면, 인간 승률은 16%입니다.
  • Slay the Spire 2에서의 최첨단 LLM에 대한 공개 온라인 벤치마크는 5가지 구성 전반에 걸쳐 승률이 0임을 보고합니다.
  • 릴리스에는 조건 태그, 고정된 메모리/기술 스냅샷 및 분석 스크립트가 포함된 298개의 완료된 트래젝토리가 포함됩니다.

이 작업은 에이전트 설계에서 특정 메모리 구성 요소의 영향을 분리하기 위한 검증 가능하고 재사용 가능한 방법론을 제공합니다.