lab Hugging Face Blog · 2 小时前 · 来源： 1 天前 · releases

ScarfBench：评估AI代理在企业Java框架迁移中的表现

译自 English → 中文

本文介绍了ScarfBench，这是一个旨在评估AI代理在不同框架之间迁移企业Java应用程序性能的基准测试。该研究强调了框架迁移的复杂性，并提出了一种标准化的评估方法，以评估代理在该领域的能力。

ScarfBench提供了真实世界企业Java代码库的综合数据集，用于测试迁移准确性。
它衡量关键指标，如代码正确性、性能保留和开发工作量减少。
该基准测试包括多个流行的Java框架，如Spring Boot、Jakarta EE和Micronaut。
评估结果显示，AI代理在不同框架对之间的表现存在显著差异。

作者认为，ScarfBench对于指导开发更可靠的企业软件现代化AI工具至关重要。

重要性 1/3 可信度 1/3 Hugging Face Blog AI agents Evaluation & benchmarks