Pesquisadores introduziram o QVal, uma bancada de testes sem treinamento projetada para avaliar diretamente a qualidade dos sinais de supervisão densa usados em agentes LLM de longo horizonte. Ao contrário das práticas padrão que confundem a qualidade do sinal com a engenharia de treinamento ao medir o desempenho downstream, o QVal avalia quão bem a pontuação de um método se alinha com os valores Q de uma política de referência forte.
Os autores instanciaram o QVal como QVal-v1.0 para benchmarkear 21 métodos de supervisão densa em quatro ambientes diversos e sete famílias metodológicas. A avaliação envolveu mais de 1.2K experimentos conduzidos em seis backbones de modelos de peso aberto.
O estudo descobriu que linhas de base simples de prompting superam consistentemente métodos recentes de supervisão densa da literatura, com desempenho agrupado fortemente por família. Essas descobertas se mantêm em vários tamanhos de modelo, ambientes e modalidades de observação.