Este artigo apresenta o ScarfBench, um benchmark projetado para avaliar o desempenho de agentes de IA na migração de aplicações empresariais Java entre diferentes frameworks. O estudo destaca a complexidade da migração de frameworks e propõe um método de avaliação padronizado para avaliar as capacidades dos agentes neste domínio.
- O ScarfBench fornece um conjunto abrangente de dados de bases de código Java empresariais reais para testar a precisão da migração.
- Ele mede métricas-chave, como correção do código, retenção de desempenho e redução do esforço de desenvolvimento.
- O benchmark inclui vários frameworks Java populares, incluindo Spring Boot, Jakarta EE e Micronaut.
- Os resultados da avaliação mostram variação significativa no desempenho dos agentes de IA entre diferentes pares de frameworks.
Os autores argumentam que o ScarfBench é essencial para orientar o desenvolvimento de ferramentas de IA mais confiáveis para a modernização de software empresarial.