TestEvo-Bench: Benchmark Eksekutabel dan Langsung untuk Ko-Evolusi Tes dan Kode

Para penulis memperkenalkan TestEvo-Bench, sebuah benchmark langsung yang dirancang untuk mengevaluasi seberapa baik agen otomatisasi tes menangani ko-evolusi kode dan tes. Ini mengatasi keterbatasan dalam benchmark yang ada dengan menyediakan tugas-tugas eksekutabel yang berakar pada riwayat commit nyata dengan konfigurasi lingkungan.

Benchmark ini memiliki dua jalur: generasi tes untuk tes baru dan pembaruan tes untuk menyesuaikan yang gagal.
Berisi 746 tugas generasi tes dan 509 tugas pembaruan tes yang dikurasi dari 152 proyek Java sumber terbuka.
Evaluasi menggunakan metrik berbasis eksekusi seperti tingkat keberhasilan, cakupan, dan skor mutasi.
Sifat langsung dari benchmark ini memungkinkan pembatasan evaluasi hanya pada tugas-tugas yang muncul setelah batas pelatihan model.

Kerangka kerja ini memungkinkan penilaian kemampuan agen yang lebih akurat dengan memastikan tes dapat dieksekusi dan terikat secara semantik terhadap perubahan kode.