Alat audit AgentSeal v5 mengevaluasi ketersediaan publik artefak dalam benchmark SWE-bench Pro untuk menilai risiko kontaminasi potensial. Studi ini menemukan bahwa meskipun 12 instances menunjukkan tumpang tindih konten deterministik dan 76 repositori adalah anggota korpus yang mungkin, sebagian besar bukti terdiri dari replikasi publik dengan tanggal tidak diketahui daripada kontaminasi pra-cutoff yang terbukti.

  • AgentSeal mengaudit 731 instance SWE-bench Pro publik menggunakan tumpang tindih kode deterministik, keanggotaan filter Bloom probabilistik, dan pemeriksaan replikasi sumber publik.
  • 12 instance memiliki sinyal tumpang tindih konten deterministik dalam indeks CodeSeal, sementara 76 repositori sumber ditandai sebagai anggota yang mungkin dari korpus Stack V2.
  • 234 instance (32%) menunjukkan replikasi publik teks patch emas di luar repositori asli, meskipun keselarasan temporal dengan cutoff pelatihan tidak tersedia.
  • Sekitar 75,4% patch emas cabang default terekspos di bawah jalur konsensus audit Pro.
  • 148 instance memiliki kode kasus tersembunyi yang terlihat secara publik dalam diff PR sumber, menunjukkan eksposi sinyal uji.

Temuan ini menyoroti bahwa artefak benchmark banyak direplikasi dalam sumber publik, menciptakan kondisi di mana kontaminasi mungkin terjadi meskipun bukti langsung inklusi data pelatihan pra-cutoff tidak ada.