研究者らは、長期ホライズンLLMエージェントで使用される密な教師信号の品質を直接評価するために設計されたトレーニング不要のテストベッドであるQValを導入しました。下流のパフォーマンスを測定することで信号の品質とトレーニングエンジニアリングを混同する標準的な慣行とは異なり、QValは手法のスコアが強力な参照方策のQ値とどれだけよく一致するかを評価します。

著者らは、4つの多様な環境と7つの方法論的ファミリーにわたって21の密な教師手法をベンチマークするために、QVal-v1.0としてQValを実装しました。この評価には、6つのオープンウェイトモデルバックボーン全体で実施された1,200回以上の実験が含まれていました。

研究の結果、単純なプロンプティングベースラインは文献からの最近の密な教師手法を一貫して上回り、パフォーマンスがファミリーによって強くクラスター化されていることがわかりました。これらの知見は、さまざまなモデルサイズ、環境、観測モダリティにわたって成立します。