Авторы представляют TestEvo-Bench, живой бенчмарк, предназначенный для оценки того, насколько хорошо агенты автоматизации тестирования справляются с совместной эволюцией кода и тестов. Он устраняет ограничения существующих бенчмарков, предоставляя исполняемые задачи, привязанные к реальным историям коммитов с конфигурациями окружения.
- Бенчмарк включает два трека: генерация тестов для новых тестов и обновление тестов для адаптации падающих.
- Он содержит 746 задач генерации тестов и 509 задач обновления тестов, отобранных из 152 проектов с открытым исходным кодом на Java.
- Оценка использует метрики, основанные на выполнении, такие как pass rate, coverage и mutation score.
- Живой характер бенчмарка позволяет ограничивать оценку задачами, дата которых позже cutoff обучения модели.
Эта фреймворк обеспечивает более точную оценку возможностей агентов, гарантируя, что тесты исполняемы и семантически связаны с изменениями кода.