TestEvo-Bench: Un benchmark ejecutable y en vivo para la co-evolución de pruebas y código

Los autores presentan TestEvo-Bench, un benchmark en vivo diseñado para evaluar qué tan bien los agentes de automatización de pruebas manejan la co-evolución del código y las pruebas. Aborda limitaciones en benchmarks existentes al proporcionar tareas ejecutables ancladas a historiales reales de commits con configuraciones de entorno.

El benchmark presenta dos tracks: generación de pruebas para nuevas pruebas y actualización de pruebas para adaptar las que fallan.
Contiene 746 tareas de generación de pruebas y 509 tareas de actualización de pruebas curadas de 152 proyectos de Java de código abierto.
La evaluación utiliza métricas basadas en la ejecución como pass rate, coverage y mutation score.
La naturaleza en vivo del benchmark permite restringir la evaluación a tareas posteriores al cutoff de entrenamiento de un modelo.

Este framework permite una evaluación más precisa de las capacidades del agente al asegurar que las pruebas sean ejecutables y estén semánticamente vinculadas a los cambios de código.