A ferramenta de auditoria AgentSeal v5 avaliou a disponibilidade pública de artefatos no benchmark SWE-bench Pro para avaliar riscos potenciais de contaminação. O estudo constatou que, embora 12 instâncias apresentassem sobreposição de conteúdo determinística e 76 repositórios fossem membros prováveis do corpus, a maioria das evidências consistiu em replicação pública sem data conhecida, em vez de contaminação pré-corte comprovada.
- AgentSeal auditou 731 instâncias públicas do SWE-bench Pro usando sobreposição determinística de código, pertinência probabilística ao Bloom filter e verificações de replicação por fontes públicas.
- 12 instâncias apresentaram sinais de sobreposição de conteúdo determinístico no índice CodeSeal, enquanto 76 repositórios de origem foram sinalizados como membros prováveis do corpus Stack V2.
- 234 instâncias (32%) mostraram replicação pública do texto do patch gold fora do repositório original, embora o alinhamento temporal com os cortes de treinamento não estivesse disponível.
- Aproximadamente 75,4% dos patches gold da branch padrão foram expostos sob o caminho de consenso da auditoria Pro.
- 148 instâncias possuíam código de casos de teste ocultos visíveis publicamente no diff do PR de origem, indicando exposição de sinais de teste.
As descobertas destacam que os artefatos do benchmark são amplamente replicados em fontes públicas, criando condições onde a contaminação é possível mesmo na ausência de prova direta da inclusão de dados de treinamento pré-corte.