Исследователи представили QVal, тестовую среду без обучения, предназначенную для прямой оценки качества плотных сигналов супервизии, используемых в долгосрочных агентах LLM. В отличие от стандартной практики, которая смешивает качество сигнала с инженерией обучения путем измерения производительности на конечной задаче, QVal оценивает, насколько хорошо оценка метода согласуется с Q-значениями сильной эталонной политики.

Авторы реализовали QVal как QVal-v1.0 для бенчмаркинга 21 метода плотной супервизии в четырех разнообразных средах и семи методологических семействах. Оценка включала более 1,2K экспериментов, проведенных на шести моделях с открытым весом.

Исследование показало, что простые базовые методы промптинга стабильно превосходят недавние методы плотной супервизии из литературы, при этом производительность сильно группируется по семействам. Эти выводы верны для различных размеров моделей, сред и модальностей наблюдений.