AgentSeal: Una auditoría de disponibilidad de corpus para SWE-bench Pro
La herramienta de auditoría AgentSeal v5 evaluó la disponibilidad pública de los artefactos en el benchmark SWE-bench Pro para evaluar riesgos potenciales de contaminación. El estudio encontró que, si bien 12 instancias mostraban una superposición de contenido determinista y 76 repositorios eran miembros probables del corpus, la mayoría de las pruebas consistían en replicación pública con fecha desconocida en lugar de contaminación pre-cutoff demostrada.