ScarfBench: Avaliando Agentes de IA para Migração de Frameworks Enterprise Java

Este artigo apresenta o ScarfBench, um benchmark projetado para avaliar o desempenho de agentes de IA na migração de aplicações empresariais Java entre diferentes frameworks. O estudo destaca a complexidade da migração de frameworks e propõe um método de avaliação padronizado para avaliar as capacidades dos agentes neste domínio.

O ScarfBench fornece um conjunto abrangente de dados de bases de código Java empresariais reais para testar a precisão da migração.
Ele mede métricas-chave, como correção do código, retenção de desempenho e redução do esforço de desenvolvimento.
O benchmark inclui vários frameworks Java populares, incluindo Spring Boot, Jakarta EE e Micronaut.
Os resultados da avaliação mostram variação significativa no desempenho dos agentes de IA entre diferentes pares de frameworks.

Os autores argumentam que o ScarfBench é essencial para orientar o desenvolvimento de ferramentas de IA mais confiáveis para a modernização de software empresarial.