AgentSeal v5 审计工具评估了 SWE-bench Pro 基准中工件的公开可用性,以评估潜在的污染风险。研究发现,虽然有 12 个实例显示出确定性的内容重叠,且 76 个仓库可能是语料库成员,但大多数证据是日期未知的公开复现,而非已证实的截断前污染。

  • AgentSeal 使用确定性代码重叠、概率性 Bloom 过滤器成员资格和公共来源复现检查,审计了 731 个公开的 SWE-bench Pro 实例。
  • CodeSeal 索引中有 12 个实例具有确定性的内容重叠信号,而 76 个源仓库被标记为 Stack V2 语料库的 probable members(可能成员)。
  • 234 个实例(32%)显示出原始仓库之外存在黄金补丁文本的公开复现,尽管无法与训练截断期进行时间对齐。
  • 在 Pro 审计共识路径下,约 75.4% 的主分支黄金补丁被暴露。
  • 148 个实例的隐藏测试用例代码在源 PR diff 中公开可见,表明存在测试信号暴露。

研究结果强调,基准工件在公共来源中被广泛复现,创造了即使缺乏直接证据证明训练数据包含在截断前,污染仍可能发生的环境。