Para penulis memperkenalkan TestEvo-Bench, sebuah benchmark langsung yang dirancang untuk mengevaluasi seberapa baik agen otomatisasi tes menangani ko-evolusi kode dan tes. Ini mengatasi keterbatasan dalam benchmark yang ada dengan menyediakan tugas-tugas eksekutabel yang berakar pada riwayat commit nyata dengan konfigurasi lingkungan.

  • Benchmark ini memiliki dua jalur: generasi tes untuk tes baru dan pembaruan tes untuk menyesuaikan yang gagal.
  • Berisi 746 tugas generasi tes dan 509 tugas pembaruan tes yang dikurasi dari 152 proyek Java sumber terbuka.
  • Evaluasi menggunakan metrik berbasis eksekusi seperti tingkat keberhasilan, cakupan, dan skor mutasi.
  • Sifat langsung dari benchmark ini memungkinkan pembatasan evaluasi hanya pada tugas-tugas yang muncul setelah batas pelatihan model.

Kerangka kerja ini memungkinkan penilaian kemampuan agen yang lebih akurat dengan memastikan tes dapat dieksekusi dan terikat secara semantik terhadap perubahan kode.