作者介绍了 AgenticSTS,这是一个旨在研究显式记忆层如何塑造长周期 LLM 代理决策的测试平台。它在游戏 Slay the Spire 2 中利用有界内存契约,其中提示通过类型化检索组装,而不是附加原始转录。

  • 系统使用固定 A0 消融实验显示,启用战略技能将胜率从 3/10 场提高到 6/10 场。
  • 公开基准测试报告前沿 LLM 在最低难度下的胜率为零,而人类胜率为 16%。
  • Slay the Spire 2 的前沿 LLM 公开在线基准测试在五种配置下均报告零胜。
  • 发布内容包括带有条件标签的 298 条已完成轨迹、冻结的记忆/技能快照以及分析脚本。

这项工作提供了一种经过验证的可复用方法论,用于隔离代理设计中特定记忆组件的影响。