Artikel ini memperkenalkan ScarfBench, sebuah benchmark yang dirancang untuk mengevaluasi kinerja agen AI dalam memigrasikan aplikasi enterprise Java antar framework yang berbeda. Studi ini menyoroti kompleksitas migrasi framework dan mengusulkan metode evaluasi terstandarisasi untuk menilai kemampuan agen di domain ini.
- ScarfBench menyediakan dataset komprehensif basis kode enterprise Java dunia nyata untuk menguji akurasi migrasi.
- Ini mengukur metrik kunci seperti kebenaran kode, retensi kinerja, dan pengurangan upaya pengembangan.
- Benchmark ini mencakup beberapa framework Java populer, termasuk Spring Boot, Jakarta EE, dan Micronaut.
- Hasil evaluasi menunjukkan variasi signifikan dalam kinerja agen AI di antara pasangan framework yang berbeda.
Para penulis berargumen bahwa ScarfBench sangat penting untuk membimbing pengembangan alat AI yang lebih andal untuk modernisasi perangkat lunak enterprise.