Les chercheurs ont introduit QVal, un banc d'essai sans entraînement conçu pour évaluer directement la qualité des signaux de supervision dense utilisés dans les agents LLM à long horizon. Contrairement aux pratiques standard qui confondent la qualité du signal avec l'ingénierie de l'entraînement en mesurant les performances en aval, QVal évalue dans quelle mesure le score d'une méthode s'aligne sur les Q-values d'une politique de référence forte.
Les auteurs ont instancié QVal sous la forme de QVal-v1.0 pour benchmark 21 méthodes de supervision dense à travers quatre environnements divers et sept familles méthodologiques. L'évaluation a impliqué plus de 1,2K expériences menées sur six backbones de modèles à poids ouverts.
L'étude a trouvé que les bases de prompting simple surpassent constamment les méthodes récentes de supervision dense de la littérature, avec des performances fortement regroupées par famille. Ces conclusions tiennent à travers différentes tailles de modèles, environnements et modalités d'observation.