يقدم الباحثون إطار عمل PACE، الذي يبني مقاييس بديلة للتنبؤ بدقة بأداء نموذج LLM في التقييمات الوكيلية المكلفة باستخدام درجات من مجموعة فرعية صغيرة من القدرات الذرية غير الوكيلية. ومن خلال ضبط نموذج انحدار لربط الدرجات من عينات مختارة بمقاييس وكيلية مستهدفة، يحقق PACE-Bench دقة تنبؤية عالية بكسر بسيط من التكلفة.

  • أظهرت التجارب عبر 14 نموذجًا و4 مقاييس وكيلية أن PACE-Bench يتنبأ بدرجات الوكيلية بخطأ مطلق متوسط أقل من 4% في التحقق المتقاطع leave-one-out ومعامل ارتباط Spearman أعلى من 0.80.
  • يحقق الإطار عمل دقة ترتيب النماذج الزوجية تبلغ حوالي 85% بينما تكلف أقل من 1% من تكلفة التقييم الوكيلية الكامل.
  • يكشف تحليل العينات البديلة المختارة عن المهارات المحددة التي يتطلبها كل مقياس وكيلية بشكل فريد.

يُمكّن PACE الممارسين من الحصول على تقديرات موثوقة لأداء الوكيلية أثناء تطوير النماذج واختيارها وتوجيهها دون العبء الإضافي لتشغيل تقييمات الوكلاء الكاملة.