ScarfBench : Évaluation des agents IA pour la migration de frameworks Java d'entreprise

Cet article présente ScarfBench, un benchmark conçu pour évaluer les performances des agents IA lors de la migration d'applications Java d'entreprise entre différents frameworks. L'étude met en évidence la complexité de la migration de framework et propose une méthode d'évaluation standardisée pour évaluer les capacités des agents dans ce domaine.

ScarfBench fournit un ensemble de données complet de bases de code Java d'entreprise réelles pour tester la précision de la migration.
Il mesure des métriques clés telles que la correction du code, la rétention des performances et la réduction des efforts de développement.
Le benchmark inclut plusieurs frameworks Java populaires, notamment Spring Boot, Jakarta EE et Micronaut.
Les résultats d'évaluation montrent une variation significative des performances des agents IA entre différentes paires de frameworks.

Les auteurs soutiennent que ScarfBench est essentiel pour guider le développement d'outils IA plus fiables pour la modernisation des logiciels d'entreprise.