लेखकों ने TestEvo-Bench पेश किया है, जो एक लाइव बेंचमार्क है जिसे कोड और टेस्ट की सह-विकास को कैसे संभालते हैं, इसका मूल्यांकन करने के लिए डिज़ाइन किया गया है। यह वास्तविक commit इतिहास और environment कॉन्फ़िगरेशन से जुड़े एक्जीक्यूटेबल टास्क प्रदान करके मौजूदा बेंचमार्क की सीमाओं को दूर करता है।
- बेंचमार्क में दो tracks हैं: नए टेस्ट के लिए टेस्ट जनरेशन और विफल टेस्ट को अनुकूलित करने के लिए टेस्ट अपडेट।
- इसमें 152 ओपन-सोर्स Java प्रोजेक्ट्स से चुने गए 746 टेस्ट जनरेशन और 509 टेस्ट अपडेट टास्क शामिल हैं।
- मूल्यांकन pass rate, coverage, और mutation score जैसे execution-grounded metrics का उपयोग करता है।
- बेंचमार्क की लाइव प्रकृति मूल्यांकन को एक मॉडल के training cutoff से बाद के टास्क तक सीमित करने की अनुमति देती है।
यह फ्रेमवर्क यह सुनिश्चित करके एजेंट क्षमताओं का अधिक सटीक मूल्यांकन सक्षम बनाता है कि टेस्ट एक्जीक्यूटेबल हैं और कोड परिवर्तनों से semantic रूप से जुड़े हुए हैं।