Авторы представляют TestEvo-Bench, живой бенчмарк, предназначенный для оценки того, насколько хорошо агенты автоматизации тестирования справляются с совместной эволюцией кода и тестов. Он устраняет ограничения существующих бенчмарков, предоставляя исполняемые задачи, привязанные к реальным историям коммитов с конфигурациями окружения.

  • Бенчмарк включает два трека: генерация тестов для новых тестов и обновление тестов для адаптации падающих.
  • Он содержит 746 задач генерации тестов и 509 задач обновления тестов, отобранных из 152 проектов с открытым исходным кодом на Java.
  • Оценка использует метрики, основанные на выполнении, такие как pass rate, coverage и mutation score.
  • Живой характер бенчмарка позволяет ограничивать оценку задачами, дата которых позже cutoff обучения модели.

Эта фреймворк обеспечивает более точную оценку возможностей агентов, гарантируя, что тесты исполняемы и семантически связаны с изменениями кода.