AgentSeal: Аудит доступности корпусов для SWE-bench Pro
Инструмент аудита AgentSeal v5 оценил публичную доступность артефактов в бенчмарке SWE-bench Pro для оценки потенциальных рисков загрязнения. Исследование показало, что хотя 12 примеров демонстрируют детерминированное перекрытие контента, а 76 репозиториев являются вероятными членами корпуса, большинство доказательств состояло из публичных репликаций с неизвестной датой, а не из доказанного загрязнения до отсечки.