著者は、明示的な記憶層が長期ホライズンLLMエージェントの意思決定にどのように影響するかを研究するために設計されたテストベッドであるAgenticSTSを紹介します。これは、Slay the Spire 2というゲームにおいて、生の転写文書を追加するのではなく、型付き検索によってプロンプトを組み立てる制限付きメモリ契約を利用しています。

  • システムは固定A0のablationを使用しており、戦略的スキルを有効にすることで勝利数が10ゲーム中3から6に増加したことが示されています。
  • 公開ベンチマークでは、最難易度において最先端LLMの勝利数はゼロであり、人間の勝利率は16%です。
  • Slay the Spire 2における最先端LLMの公開オンラインベンチマークでは、5つの構成全体で勝利数がゼロでした。
  • リリースには、条件タグ、凍結されたメモリ/スキルのスナップショット、分析スクリプトを含む298件の完了したトラジェクトリが含まれています。

この研究は、エージェント設計における特定の記憶コンポーネントの影響を分離するための検証済みで再利用可能な方法論を提供します。