arxiv arXiv cs.CL · 1 小时前 · research

TestEvo-Bench：用于测试与代码协同演化的可执行实时基准

译自 English → 中文

作者介绍了 TestEvo-Bench，这是一个实时基准，旨在评估测试自动化代理处理代码和测试协同演化的能力。它通过提供锚定在真实提交历史和环境配置中的可执行任务，解决了现有基准的局限性。

该基准包含两个赛道：用于新测试的测试生成和用于适配失败测试的测试更新。
它包含从 152 个开源 Java 项目中精选的 746 个测试生成任务和 509 个测试更新任务。
评估使用基于执行的指标，如 pass rate、coverage 和 mutation score。
该基准的实时性质允许将评估限制在晚于模型训练 cutoff 的任务上。

该框架通过确保测试可执行且在语义上与代码更改相关联，从而实现了对代理能力更准确的评估。

重要性 2/3 具有差异化优势的新评测框架 arXiv cs.CL Anthropic Google DeepMind Code generation Evaluation & benchmarks