La herramienta de auditoría AgentSeal v5 evaluó la disponibilidad pública de los artefactos en el benchmark SWE-bench Pro para evaluar riesgos potenciales de contaminación. El estudio encontró que, si bien 12 instancias mostraban una superposición de contenido determinista y 76 repositorios eran miembros probables del corpus, la mayoría de las pruebas consistían en replicación pública con fecha desconocida en lugar de contaminación pre-cutoff demostrada.

  • AgentSeal auditó 731 instancias públicas de SWE-bench Pro utilizando superposición determinista de código, membresía probabilística mediante filtro Bloom y verificaciones de replicación de fuentes públicas.
  • 12 instancias tenían señales de superposición de contenido determinista en el índice CodeSeal, mientras que 76 repositorios fuente fueron marcados como miembros probables del corpus Stack V2.
  • 234 instancias (32%) mostraron replicación pública del texto del parche gold fuera del repositorio original, aunque no estaba disponible la alineación temporal con los cortes de entrenamiento.
  • Aproximadamente el 75.4% de los parches gold de la rama principal estaban expuestos bajo la ruta de consenso de auditoría Pro.
  • 148 instancias tenían código de casos de prueba oculto visible públicamente en el diff del PR fuente, lo que indica exposición de señales de prueba.

Los hallazgos destacan que los artefactos del benchmark están ampliamente replicados en fuentes públicas, creando condiciones donde la contaminación es posible incluso si falta la prueba directa de inclusión de datos de entrenamiento pre-cutoff.