AgentSeal v5監査ツールは、SWE-bench Proベンチマークにおけるアーティファクトの公開可用性を評価し、潜在的なコンタミネーションリスクを検証した。研究により、12件のインスタンスで決定論的なコンテンツ重複が確認され、76件のリポジトリがコーパスメンバーである可能性が高いことが判明したが、大半のエビデンスはカットオフ以前のコンタミネーションではなく、日付不明の公開複製であった。

  • AgentSealは、決定論的コード重複、確率的Bloomフィルタメンバーシップ、および公開ソース複製チェックを用いて731件の公開SWE-bench Proインスタンスを監査した。
  • CodeSealインデックスにおいて12件のインスタンスで決定論的なコンテンツ重複シグナルが検出され、76件のソースリポジトリがStack V2コーパスのメンバーである可能性があるとフラグ付けされた。
  • 234件(32%)のインスタンスで、元のリポジトリ外におけるゴールドパッチテキストの公開複製が確認されたが、トレーニングカットオフとの時間的整合性は不明であった。
  • デフォルトブランチのゴールドパッチの約75.4%が、Pro監査コンセンサスパスの下で公開されていた。
  • 148件のインスタンスにおいて、ソースPR diff内にテストケースコードが公開されており、テストシグナルの露出が示された。

これらの知見は、ベンチマークアーティファクトが公開ソースで広く複製されており、カットオフ以前のトレーニングデータ包含の直接的な証拠が欠如していても、コンタミネーションの可能性が生じる状況を示している。