ScarfBench: Оценка ИИ-агентов для миграции на фреймворки Enterprise Java

В этой статье представлен ScarfBench, бенчмарк, предназначенный для оценки производительности ИИ-агентов при миграции корпоративных приложений Java между различными фреймворками. Исследование подчеркивает сложность миграции фреймворков и предлагает стандартизированный метод оценки возможностей агентов в этой области.

ScarfBench предоставляет комплексный набор данных реальных корпоративных кодовых баз Java для тестирования точности миграции.
Он измеряет ключевые метрики, такие как корректность кода, сохранение производительности и снижение затрат на разработку.
Бенчмарк включает несколько популярных фреймворков Java, включая Spring Boot, Jakarta EE и Micronaut.
Результаты оценки показывают значительные различия в производительности ИИ-агентов для различных пар фреймворков.

Авторы утверждают, что ScarfBench необходим для руководства разработкой более надежных ИИ-инструментов для модернизации корпоративного программного обеспечения.