TestEvo-Bench: Um Benchmark Executável e ao Vivo para a Co-Evolução de Testes e Código

Os autores apresentam o TestEvo-Bench, um benchmark ao vivo projetado para avaliar quão bem os agentes de automação de testes lidam com a co-evolução do código e dos testes. Ele aborda limitações em benchmarks existentes ao fornecer tarefas executáveis ancoradas em históricos reais de commits com configurações de ambiente.

O benchmark apresenta dois tracks: geração de testes para novos testes e atualização de testes para adaptar os que falham.
Ele contém 746 tarefas de geração de testes e 509 tarefas de atualização de testes curadas de 152 projetos Java de código aberto.
A avaliação utiliza métricas baseadas na execução, como pass rate, coverage e mutation score.
A natureza ao vivo do benchmark permite restringir a avaliação a tarefas posteriores ao cutoff de treinamento de um modelo.

Este framework permite uma avaliação mais precisa das capacidades do agente, garantindo que os testes sejam executáveis e semanticamente vinculados às alterações de código.