arxiv arXiv cs.AI · hace 2 h · fuente: hace 12 d · research

Señales de oráculo en código de prueba generado por agentes

Traducido del English → Español

Un estudio empírico de 86.156 parches de archivos de prueba procedentes de 33.596 PRs generados por agentes revela que el 80,2% de los parches de prueba contienen señales de oráculo débiles o inexistentes. Los archivos de prueba con oráculo fuerte mejoran significativamente la probabilidad de fusión (OR = 1,28, p < 0,001) después de ajustar por múltiples factores, lo que indica que la presencia del archivo de prueba por sí sola sobrestima la fuerza de verificación.

Importancia 2/3 arXiv cs.AI OpenAI Anthropic Cursor AI agents Code generation Evaluation & benchmarks

Benchmarks

Benchmark	Modelo	Puntuación
SWE-bench Verified	Claude Code	80.2%
SWE-bench Verified	Cursor	80.2%
SWE-bench Verified	Devin	80.2%
SWE-bench Verified	GitHub Copilot	80.2%
SWE-bench Verified	OpenAI Codex	80.2%

Leer original