Os autores apresentam o TestEvo-Bench, um benchmark ao vivo projetado para avaliar quão bem os agentes de automação de testes lidam com a co-evolução do código e dos testes. Ele aborda limitações em benchmarks existentes ao fornecer tarefas executáveis ancoradas em históricos reais de commits com configurações de ambiente.
- O benchmark apresenta dois tracks: geração de testes para novos testes e atualização de testes para adaptar os que falham.
- Ele contém 746 tarefas de geração de testes e 509 tarefas de atualização de testes curadas de 152 projetos Java de código aberto.
- A avaliação utiliza métricas baseadas na execução, como pass rate, coverage e mutation score.
- A natureza ao vivo do benchmark permite restringir a avaliação a tarefas posteriores ao cutoff de treinamento de um modelo.
Este framework permite uma avaliação mais precisa das capacidades do agente, garantindo que os testes sejam executáveis e semanticamente vinculados às alterações de código.