本文介绍了ScarfBench,这是一个旨在评估AI代理在不同框架之间迁移企业Java应用程序性能的基准测试。 该研究强调了框架迁移的复杂性,并提出了一种标准化的评估方法,以评估代理在该领域的能力。

  • ScarfBench提供了真实世界企业Java代码库的综合数据集,用于测试迁移准确性。
  • 它衡量关键指标,如代码正确性、性能保留和开发工作量减少。
  • 该基准测试包括多个流行的Java框架,如Spring Boot、Jakarta EE和Micronaut。
  • 评估结果显示,AI代理在不同框架对之间的表现存在显著差异。

作者认为,ScarfBench对于指导开发更可靠的企业软件现代化AI工具至关重要。