연구자들은 장기 호라이즌 LLM 에이전트에서 사용되는 밀집 감독 신호의 품질을 직접 평가하도록 설계된 학습 없는 테스트베드인 QVal을 소개했습니다. 다운스트림 성능을 측정하여 신호 품질과 훈련 엔지니어링을 혼동하는 표준 관행과는 달리, QVal은 방법의 점수가 강력한 참조 정책의 Q값과 얼마나 잘 일치하는지 평가합니다.
저자들은 4개의 다양한 환경과 7개 방법론 계열에 걸쳐 21개 밀집 감독 방법을 벤치마킹하기 위해 QVal을 QVal-v1.0으로 구현했습니다. 이 평가에는 6개의 오픈 가중치 모델 백본 전반에서 수행된 1,200회 이상의 실험이 포함되었습니다.
연구 결과, 간단한 프롬프팅 기반 방법은 문헌의 최근 밀집 감독 방법보다 일관되게 우수한 성능을 보였으며, 성능은 계열별로 강하게 군집화되었습니다. 이러한 발견은 다양한 모델 크기, 환경 및 관찰 모달리티 전반에 걸쳐 유효합니다.