Los autores presentan TestEvo-Bench, un benchmark en vivo diseñado para evaluar qué tan bien los agentes de automatización de pruebas manejan la co-evolución del código y las pruebas. Aborda limitaciones en benchmarks existentes al proporcionar tareas ejecutables ancladas a historiales reales de commits con configuraciones de entorno.
- El benchmark presenta dos tracks: generación de pruebas para nuevas pruebas y actualización de pruebas para adaptar las que fallan.
- Contiene 746 tareas de generación de pruebas y 509 tareas de actualización de pruebas curadas de 152 proyectos de Java de código abierto.
- La evaluación utiliza métricas basadas en la ejecución como pass rate, coverage y mutation score.
- La naturaleza en vivo del benchmark permite restringir la evaluación a tareas posteriores al cutoff de entrenamiento de un modelo.
Este framework permite una evaluación más precisa de las capacidades del agente al asegurar que las pruebas sean ejecutables y estén semánticamente vinculadas a los cambios de código.