शोधकर्ताओं ने PACE का परिचय दिया, एक फ्रेमवर्क जो प्रॉक्सी बेंचमार्क्स बनाता है ताकि छोटे उपसमुच्चय से गैर-एजेंटिक परमाणु क्षमताओं के स्कोर का उपयोग करके महंगे एजेंटिक मूल्यांकनों में LLM के प्रदर्शन की सटीक भविष्यवाणी की जा सके। एक रेग्रेशन मॉडल को फिट करके क्यूरेटेड उदाहरणों से स्कोर को लक्ष्य एजेंटिक बेंचमार्क्स से मैप करने पर, परिणामी PACE-Bench कम लागत में उच्च भविष्यवाणी सटीकता प्राप्त करता है।

  • 14 मॉडलों और 4 एजेंटिक बेंचमार्क्स पर प्रयोग दिखाते हैं कि PACE-Bench leave-one-out क्रॉस-वैलिडेशन माध्यम निरपेक्ष त्रुटि 4% से कम और स्पीयरमैन सहसंबंध 0.80 से अधिक के साथ एजेंटिक स्कोर की भविष्यवाणी करता है।
  • फ्रेमवर्क पूरे एजेंटिक मूल्यांकन लागत का 1% से भी कम खर्च करते हुए जोड़ीवार मॉडल-रेकिंग सटीकता में लगभग 85% प्राप्त करता है।
  • चयनित प्रॉक्सी उदाहरणों का विश्लेषण दर्शाता है कि प्रत्येक एजेंटिक बेंचमार्क विशिष्ट रूप से कौन सी विशेष कौशल की मांग करता है।

PACE अभ्यासकर्ताओं को मॉडल विकास, चयन और रूटिंग के दौरान पूर्ण एजेंट मूल्यांकन चलाने की ओवरहेड के बिना एजेंटिक प्रदर्शन की विश्वसनीय अनुमान प्राप्त करने में सक्षम बनाता है।