TestEvo-Bench: 테스트와 코드 공동 진화를 위한 실행 가능하고 실시간 벤치마크

저자들은 TestEvo-Bench를 소개합니다. 이는 테스트 자동화 에이전트가 코드와 테스트의 공동 진화를 얼마나 잘 처리하는지 평가하기 위해 설계된 실시간 벤치마크입니다. 환경 구성이 포함된 실제 커밋 이력에 기반한 실행 가능한 작업을 제공함으로써 기존 벤치마크의 한계를 해결합니다.

이 벤치마크는 두 개의 트랙을 특징으로 합니다: 새로운 테스트를 위한 테스트 생성과 실패하는 테스트를 적응시키기 위한 테스트 업데이트입니다.
152개의 오픈소스 Java 프로젝트에서 선별된 746개의 테스트 생성 작업과 509개의 테스트 업데이트 작업을 포함합니다.
평가는 통과율, 커버리지, 뮤테이션 점수와 같은 실행 기반 지표를 사용합니다.
벤치마크의 실시간 특성은 모델의 학습 종료 시점 이후의 작업으로 평가를 제한할 수 있게 합니다.

이 프레임워크는 테스트가 실행 가능하고 코드 변경과 의미론적으로 연결되도록 보장함으로써 에이전트 능력에 대한 더 정확한 평가를 가능하게 합니다.