AgentSeal：SWE-bench Pro 的语料库可用性审计

AgentSeal v5 审计工具评估了 SWE-bench Pro 基准中工件的公开可用性，以评估潜在的污染风险。研究发现，虽然有 12 个实例显示出确定性的内容重叠，且 76 个仓库可能是语料库成员，但大多数证据是日期未知的公开复现，而非已证实的截断前污染。

AgentSeal 使用确定性代码重叠、概率性 Bloom 过滤器成员资格和公共来源复现检查，审计了 731 个公开的 SWE-bench Pro 实例。
CodeSeal 索引中有 12 个实例具有确定性的内容重叠信号，而 76 个源仓库被标记为 Stack V2 语料库的 probable members（可能成员）。
234 个实例（32%）显示出原始仓库之外存在黄金补丁文本的公开复现，尽管无法与训练截断期进行时间对齐。
在 Pro 审计共识路径下，约 75.4% 的主分支黄金补丁被暴露。
148 个实例的隐藏测试用例代码在源 PR diff 中公开可见，表明存在测试信号暴露。

研究结果强调，基准工件在公共来源中被广泛复现，创造了即使缺乏直接证据证明训练数据包含在截断前，污染仍可能发生的环境。