يقدم المؤلفون TestEvo-Bench، وهو معيار مباشر مصمم لتقييم مدى قدرة وكلاء أتمتة الاختبارات على التعامل مع التطور المشترك للكود والاختبارات. يعالج هذه الأداة قيود المعايير الحالية من خلال توفير مهام قابلة للتنفيذ مرتبطة بتاريخ عمليات الدمج (commits) الحقيقية مع تكوينات البيئة.
- يتميز المعيار بمسارين: توليد الاختبارات للاختبارات الجديدة، وتحديث الاختارات لتكييف تلك التي تفشل.
- يحتوي على 746 مهمة لتوليد الاختبارات و509 مهمة لتحديث الاختارات مستمدة من 152 مشروعًا مفتوح المصدر بلغة Java.
- يستخدم التقييم مقاييس مبنية على التنفيذ مثل معدل النجاح، والتغطية، ونقاط الطفرة (mutation score).
- يتيح الطبيعة المباشرة للمعيار تقييد التقييم للمهام التي تأتي بعد تاريخ قطع تدريب النموذج.
يمكن هذا الإطار من تقييم أكثر دقة لقدرات الوكلاء من خلال ضمان أن الاختبارات قابلة للتنفيذ ومربوطة دلاليًا بتغييرات الكود.