Los autores presentan TestEvo-Bench, un benchmark en vivo diseñado para evaluar qué tan bien los agentes de automatización de pruebas manejan la co-evolución del código y las pruebas. Aborda limitaciones en benchmarks existentes al proporcionar tareas ejecutables ancladas a historiales reales de commits con configuraciones de entorno.

  • El benchmark presenta dos tracks: generación de pruebas para nuevas pruebas y actualización de pruebas para adaptar las que fallan.
  • Contiene 746 tareas de generación de pruebas y 509 tareas de actualización de pruebas curadas de 152 proyectos de Java de código abierto.
  • La evaluación utiliza métricas basadas en la ejecución como pass rate, coverage y mutation score.
  • La naturaleza en vivo del benchmark permite restringir la evaluación a tareas posteriores al cutoff de entrenamiento de un modelo.

Este framework permite una evaluación más precisa de las capacidades del agente al asegurar que las pruebas sean ejecutables y estén semánticamente vinculadas a los cambios de código.