Un estudio empírico de 86.156 parches de archivos de prueba procedentes de 33.596 PRs generados por agentes revela que el 80,2% de los parches de prueba contienen señales de oráculo débiles o inexistentes. Los archivos de prueba con oráculo fuerte mejoran significativamente la probabilidad de fusión (OR = 1,28, p < 0,001) después de ajustar por múltiples factores, lo que indica que la presencia del archivo de prueba por sí sola sobrestima la fuerza de verificación.
arxiv
arXiv cs.AI
·
hace 2 h
·
fuente: hace 12 d
·
research
Señales de oráculo en código de prueba generado por agentes
Traducido del English → Español
Importancia 2/3
arXiv cs.AI
OpenAI
Anthropic
Cursor
AI agents
Code generation
Evaluation & benchmarks
Benchmarks
| Benchmark | Modelo | Puntuación |
|---|---|---|
| SWE-bench Verified | Claude Code | 80.2% |
| SWE-bench Verified | Cursor | 80.2% |
| SWE-bench Verified | Devin | 80.2% |
| SWE-bench Verified | GitHub Copilot | 80.2% |
| SWE-bench Verified | OpenAI Codex | 80.2% |