研究人员推出了 QVal,这是一个无需训练的测试平台,旨在直接评估长视域 LLM 智能体中使用的密集监督信号的质量。与通过测量下游性能将信号质量与训练工程混为一谈的标准做法不同,QVal 评估方法得分与强参考策略的 Q 值之间的对齐程度。

作者将 QVal 实例化为 QVal-v1.0,以在四种不同的环境和七种方法论家族中对 21 种密集监督方法进行基准测试。该评估涉及在六个开源模型骨干上进行的超过 1.2K 次实验。

研究发现,简单的提示基线始终优于文献中最近的密集监督方法,性能按家族强烈聚集。这些发现适用于各种模型大小、环境和观察模态。