ScarfBench: エンタープライズJavaフレームワーク移行におけるAIエージェントのベンチマーク

本記事では、エンタープライズJavaアプリケーションを異なるフレーム間で移行する際のAIエージェントのパフォーマンスを評価するために設計されたベンチマークであるScarfBenchを紹介します。この研究は、フレームワーク移行の複雑さを浮き彫りにし、この分野におけるエージェントの能力を評価するための標準化された評価方法を提案しています。

ScarfBenchは、移行精度をテストするための現実世界のエンタープライズJavaコードベースの包括的なデータセットを提供します。
コードの正確性、パフォーマンスの維持、開発効率の削減など、主要な指標を測定します。
このベンチマークには、Spring Boot、Jakarta EE、Micronautを含む複数の一般的なJavaフレームワークが含まれています。
評価結果は、異なるフレームワークペア間でAIエージェントのパフォーマンスに大きなばらつきがあることを示しています。

著者らは、ScarfBenchがエンタープライズソフトウェアの近代化のためのより信頼性の高いAIツールの開発を導くために不可欠であると主張しています。