शोधकर्ताओं ने QVal पेश किया है, जो एक ट्रेनिंग-फ्री टेस्टबेड है जिसे लंबे-हॉरिज़न LLM एजेंट्स में उपयोग किए जाने वाले घने सपर्विजन सिग्नलों की गुणवत्ता का सीधे मूल्यांकन करने के लिए डिज़ाइन किया गया है। मानक प्रथाओं के विपरीत जो डाउनस्ट्रीम प्रदर्शन को मापकर सिग्नल गुणवत्ता को ट्रेनिंग इंजीनियरिंग के साथ मिश्रित कर देती हैं, QVal इस बात का मूल्यांकन करता है कि किसी विधि का स्कोर एक मजबूत रेफरेंस पॉलिसी के Q-मानों के साथ कितनी अच्छी तरह संरेखित होता है।

लेखकों ने चार विविध वातावरणों और सात विधिकीय परिवारों में 21 घने सपर्विजन विधियों का बेंचमार्क करने के लिए QVal को QVal-v1.0 के रूप में इंस्टेंशिएट किया। इस मूल्यांकन में छह ओपन-वेट मॉडल बैकबोन पर किए गए 1.2K से अधिक प्रयोग शामिल थे।

अध्ययन ने पाया कि साधारण प्रॉम्प्टिंग बेलाइंस साहित्य से हालिया घने सपर्विजन विधियों की तुलना में लगातार बेहतर प्रदर्शन करते हैं, जिसमें प्रदर्शन परिवार के अनुसार मजबूती से समूहीकृत होता है। ये निष्कर्ष विभिन्न मॉडल आकारों, वातावरणों और अवलोकन मोडैलिटीज़ पर लागू होते हैं।