作者介绍了 TestEvo-Bench,这是一个实时基准,旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务,解决了现有基准的局限性。

  • 该基准包含两个赛道:用于新测试的测试生成和用于适配失败测试的测试更新。
  • 它包含从 152 个开源 Java 项目中精选的 746 个测试生成任务和 509 个测试更新任务。
  • 评估使用基于执行的指标,如 pass rate、coverage 和 mutation score。
  • 该基准的实时性质允许将评估限制在晚于模型训练 cutoff 的任务上。

该框架通过确保测试可执行且在语义上与代码更改相关联,从而实现了对代理能力更准确的评估。