TestEvo-Bench : Un benchmark exécutable et en temps réel pour la co-évolution des tests et du code

Les auteurs présentent TestEvo-Bench, un benchmark en temps réel conçu pour évaluer la capacité des agents d'automatisation des tests à gérer la co-évolution du code et des tests. Il comble les lacunes des benchmarks existants en fournissant des tâches exécutables ancrées dans des historiques de commits réels avec des configurations d'environnement.

Le benchmark propose deux pistes : la génération de tests pour de nouveaux tests et la mise à jour des tests pour adapter ceux qui échouent.
Il contient 746 tâches de génération de tests et 509 tâches de mise à jour de tests, sélectionnées à partir de 152 projets Java open source.
L'évaluation utilise des mesures fondées sur l'exécution telles que le taux de réussite, la couverture et le score de mutation.
Le caractère en temps réel du benchmark permet de restreindre l'évaluation aux tâches postérieures à la date de coupure d'entraînement d'un modèle.

Ce cadre permet une évaluation plus précise des capacités des agents en garantissant que les tests sont exécutables et sémantiquement liés aux modifications du code.