قدم الباحثون QVal، وهي منصة اختبار خالية من التدريب مصممة لتقييم جودة إشارات الإشراف الكثيفة المستخدمة في وكلاء LLM طويلة المدى مباشرة. وعلى عكس الممارسات القياسية التي تخلط بين جودة الإشارة وهندسة التدريب عن طريق قياس الأداء النهائي، تقيس QVal مدى توافق نتيجة الطريقة مع قيم Q لسياسة مرجعية قوية.
قام المؤلفون بتجسيد QVal كـ QVal-v1.0 لمقارنة 21 طريقة إشراف كثيفة عبر أربع بيئات متنوعة وسبع عائلات منهجية. شمل التقييم أكثر من 1.2K تجربة أُجريت عبر ستة خلفيات نماذج بأوزان مفتوحة.
وجدت الدراسة أن الأسس الأساسية للتوجيه البسيط تتفوق باستمرار على أحدث طرق الإشراف الكثيف من الأدبيات، مع تجميع الأداء بقوة حسب العائلة. تنطبق هذه النتائج عبر أحجام النماذج المختلفة والبيئات وأنواع الملاحظة.