В этой статье представлен ScarfBench, бенчмарк, предназначенный для оценки производительности ИИ-агентов при миграции корпоративных приложений Java между различными фреймворками. Исследование подчеркивает сложность миграции фреймворков и предлагает стандартизированный метод оценки возможностей агентов в этой области.

  • ScarfBench предоставляет комплексный набор данных реальных корпоративных кодовых баз Java для тестирования точности миграции.
  • Он измеряет ключевые метрики, такие как корректность кода, сохранение производительности и снижение затрат на разработку.
  • Бенчмарк включает несколько популярных фреймворков Java, включая Spring Boot, Jakarta EE и Micronaut.
  • Результаты оценки показывают значительные различия в производительности ИИ-агентов для различных пар фреймворков.

Авторы утверждают, что ScarfBench необходим для руководства разработкой более надежных ИИ-инструментов для модернизации корпоративного программного обеспечения.