L'outil d'audit AgentSeal v5 a évalué la disponibilité publique des artefacts dans le benchmark SWE-bench Pro afin d'évaluer les risques potentiels de contamination. L'étude a révélé que, bien que 12 instances aient montré une chevauchement de contenu déterministe et que 76 dépôts soient des membres probables du corpus, la plupart des preuves consistaient en des répliques publiques dont la date est inconnue plutôt qu'une contamination avérée antérieure à la coupure.

  • AgentSeal a audité 731 instances publiques de SWE-bench Pro en utilisant un chevauchement de code déterministe, l'appartenance probabiliste via un filtre de Bloom et des vérifications de réplique issue de sources publiques.
  • 12 instances présentaient des signaux de chevauchement de contenu déterministe dans l'index CodeSeal, tandis que 76 dépôts source ont été signalés comme membres probables du corpus Stack V2.
  • 234 instances (32 %) ont montré une réplique publique du texte du patch de référence en dehors du dépôt original, bien que l'alignement temporel avec les coupures d'entraînement soit indisponible.
  • Environ 75,4 % des patches de référence de la branche par défaut étaient exposés selon le chemin de consensus de l'audit Pro.
  • 148 instances avaient du code de cas de test caché publiquement visible dans la différence (diff) de la PR source, indiquant une exposition des signaux de test.

Les résultats mettent en évidence que les artefacts des benchmarks sont largement répliqués dans des sources publiques, créant des conditions où la contamination est possible même en l'absence de preuve directe d'inclusion de données d'entraînement antérieures à la coupure.