저자들은 TestEvo-Bench를 소개합니다. 이는 테스트 자동화 에이전트가 코드와 테스트의 공동 진화를 얼마나 잘 처리하는지 평가하기 위해 설계된 실시간 벤치마크입니다. 환경 구성이 포함된 실제 커밋 이력에 기반한 실행 가능한 작업을 제공함으로써 기존 벤치마크의 한계를 해결합니다.
- 이 벤치마크는 두 개의 트랙을 특징으로 합니다: 새로운 테스트를 위한 테스트 생성과 실패하는 테스트를 적응시키기 위한 테스트 업데이트입니다.
- 152개의 오픈소스 Java 프로젝트에서 선별된 746개의 테스트 생성 작업과 509개의 테스트 업데이트 작업을 포함합니다.
- 평가는 통과율, 커버리지, 뮤테이션 점수와 같은 실행 기반 지표를 사용합니다.
- 벤치마크의 실시간 특성은 모델의 학습 종료 시점 이후의 작업으로 평가를 제한할 수 있게 합니다.
이 프레임워크는 테스트가 실행 가능하고 코드 변경과 의미론적으로 연결되도록 보장함으로써 에이전트 능력에 대한 더 정확한 평가를 가능하게 합니다.