Para penulis memperkenalkan TestEvo-Bench, sebuah benchmark langsung yang dirancang untuk mengevaluasi seberapa baik agen otomatisasi tes menangani ko-evolusi kode dan tes. Ini mengatasi keterbatasan dalam benchmark yang ada dengan menyediakan tugas-tugas eksekutabel yang berakar pada riwayat commit nyata dengan konfigurasi lingkungan.
- Benchmark ini memiliki dua jalur: generasi tes untuk tes baru dan pembaruan tes untuk menyesuaikan yang gagal.
- Berisi 746 tugas generasi tes dan 509 tugas pembaruan tes yang dikurasi dari 152 proyek Java sumber terbuka.
- Evaluasi menggunakan metrik berbasis eksekusi seperti tingkat keberhasilan, cakupan, dan skor mutasi.
- Sifat langsung dari benchmark ini memungkinkan pembatasan evaluasi hanya pada tugas-tugas yang muncul setelah batas pelatihan model.
Kerangka kerja ini memungkinkan penilaian kemampuan agen yang lebih akurat dengan memastikan tes dapat dieksekusi dan terikat secara semantik terhadap perubahan kode.