AgentSeal: SWE-bench Pro में Corpus-उपलब्धता का ऑडिट

AgentSeal v5 ऑडिट टूल ने संभावित दूषण जोखिमों का आकलन करने के लिए SWE-bench Pro बेंचमार्क में आर्टिफैक्ट्स की सार्वजनिक उपलब्धता का मूल्यांकन किया। अध्ययन से पता चला कि जबकि 12 उदाहरणों में निर्धारित सामग्री ओवरलैप दिखाया गया और 76 रिपॉजिटरी संभावित कोरस सदस्य थे, अधिकांश सबूत प्रमाणित पूर्व-कटऑफ दूषण के बजाय तारीख-अज्ञात सार्वजनिक पुनरुत्पादन पर आधारित था।

AgentSeal ने निर्धारित कोड ओवरलैप, प्रायिकता Bloom फ़िल्टर सदस्यता और सार्वजनिक-स्रोत पुनरुत्पादन जांच का उपयोग करके 731 सार्वजनिक SWE-bench Pro उदाहरणों का ऑडिट किया।
CodeSeal इंडेक्स में 12 उदाहरणों में निर्धारित सामग्री-ओवरलैप संकेत थे, जबकि 76 स्रोत रिपॉजिटरी को Stack V2 कोरस के संभावित सदस्य के रूप में चिह्नित किया गया।
234 उदाहरणों (32%) ने मूल रिपॉजिटरी के बाहर गोल्ड पैच टेक्स्ट का सार्वजनिक पुनरुत्पादन दिखाया, हालांकि प्रशिक्षण कटऑफ़ के साथ कालिक समानता अनुपलब्ध थी।
Pro ऑडिट सहमति पथ के तहत लगभग 75.4% डिफ़ॉल्ट-ब्रांच गोल्ड पैच उजागर किए गए थे।
148 उदाहरणों में स्रोत PR डिफ़ में छिपे टेस्ट केस कोड सार्वजनिक रूप से दिखाई दे रहे थे, जिससे टेस्ट-संकेत का उजागर होना संकेतित होता है।

निष्कर्ष यह उजागर करते हैं कि बेंचमार्क आर्टिफैक्ट्स सार्वजनिक स्रोतों में व्यापक रूप से पुनरुत्पादित किए जाते हैं, जिससे ऐसे परिस्थितियाँ बनती हैं जहाँ दूषण संभव है भले ही पूर्व-कटऑफ प्रशिक्षण डेटा शामिल होने का सीधा सबूत अनुपलब्ध हो।