TestEvo-Bench: Исполняемый и живой бенчмарк для совместной эволюции тестов и кода

Авторы представляют TestEvo-Bench, живой бенчмарк, предназначенный для оценки того, насколько хорошо агенты автоматизации тестирования справляются с совместной эволюцией кода и тестов. Он устраняет ограничения существующих бенчмарков, предоставляя исполняемые задачи, привязанные к реальным историям коммитов с конфигурациями окружения.

Бенчмарк включает два трека: генерация тестов для новых тестов и обновление тестов для адаптации падающих.
Он содержит 746 задач генерации тестов и 509 задач обновления тестов, отобранных из 152 проектов с открытым исходным кодом на Java.
Оценка использует метрики, основанные на выполнении, такие как pass rate, coverage и mutation score.
Живой характер бенчмарка позволяет ограничивать оценку задачами, дата которых позже cutoff обучения модели.

Эта фреймворк обеспечивает более точную оценку возможностей агентов, гарантируя, что тесты исполняемы и семантически связаны с изменениями кода.