著者らは、テスト自動化エージェントがコードとテストの共進化をどの程度適切に処理できるかを評価するために設計されたライブベンチマークであるTestEvo-Benchを紹介します。既存のベンチマークの限界に対処し、実際のコミット履歴と環境設定に基づいた実行可能なタスクを提供します。
- このベンチマークには、新しいテスト用のテスト生成と、失敗したテストに適応するためのテスト更新という2つのトラックがあります。
- 152のオープンソースJavaプロジェクトからキュレーションされた746件のテスト生成タスクと509件のテスト更新タスクが含まれています。
- 評価には、パス率、カバレッジ、ミューテーションスコアなどの実行ベースの指標が使用されます。
- ベンチマークのライブな性質により、モデルの学習終了日以降のタスクに限定して評価を行うことができます。
このフレームワークは、テストが実行可能でコード変更と意味的に結びついていることを保証することで、エージェントの能力をより正確に評価することを可能にします。