قامت أداة التدقيق AgentSeal v5 بتقييم التوفر العام للنتائج (artifacts) في معيار SWE-bench Pro لتقييم مخاطر التلوث المحتملة. وجدت الدراسة أنه بينما أظهرت 12 حالة تداخلاً حتمياً للمحتوى و76 مستودعاً أعضاء محتملين في مجموعة البيانات، فإن معظم الأدلة تتألف من نسخ عامة بتاريخ غير معروف بدلاً من تلوث مثبت قبل نقطة القطع.
- قامت AgentSeal بتدقيق 731 حالة عامة من SWE-bench Pro باستخدام تداخل حتمي للكود، وانتماء احتمالي لمصفيّة بلوم (Bloom filter)، وفحوصات للنسخ العام.
- كانت لدى 12 حالة إشارات تداخل محتوى حتمي في فهرس CodeSeal، بينما تم تصنيف 76 مستودعاً مصدرياً كأعضاء محتملين في مجموعة بيانات Stack V2.
- أظهرت 234 حالة (32%) نسخاً عاماً لنص التصحيح الذهبي خارج المستودع الأصلي، على الرغم من عدم توفر المحاذاة الزمنية مع نقاط قطع التدريب.
- تعرض حوالي 75.4% من تصحيحات الفرع الافتراضي عبر مسار إجماع تدقيق Pro.
- كانت أكواد حالات الاختبار المخفية مرئية علناً في فرق (diff) طلب السحب (PR) المصدري لـ 148 حالة، مما يشير إلى تعرض إشارات الاختبار.
تسلط النتائج الضوء على أن نتائج المعايير تُنسخ على نطاق واسع في مصادر عامة، مما يخلق ظروفاً يكون فيها التلوث ممكناً حتى في غياب دليل مباشر على تضمين بيانات التدريب قبل نقطة القطع.