Este artículo presenta ScarfBench, un benchmark diseñado para evaluar el rendimiento de agentes IA en la migración de aplicaciones empresariales Java entre diferentes marcos. El estudio destaca la complejidad de la migración de marcos y propone un método de evaluación estandarizado para evaluar las capacidades de los agentes en este dominio.
- ScarfBench proporciona un conjunto de datos integral de bases de código Java empresariales reales para probar la precisión de la migración.
- Mide métricas clave como la corrección del código, la retención del rendimiento y la reducción del esfuerzo de desarrollo.
- El benchmark incluye varios marcos Java populares, como Spring Boot, Jakarta EE y Micronaut.
- Los resultados de la evaluación muestran una variación significativa en el rendimiento de los agentes IA entre diferentes pares de marcos.
Los autores argumentan que ScarfBench es esencial para guiar el desarrollo de herramientas IA más confiables para la modernización del software empresarial.