Los investigadores han presentado QVal, una bancada de pruebas sin entrenamiento diseñada para evaluar directamente la calidad de las señales de supervisión densa utilizadas en agentes LLM de largo horizonte. A diferencia de las prácticas estándar que confunden la calidad de la señal con la ingeniería de entrenamiento al medir el rendimiento descendente, QVal evalúa qué tan bien se alinea la puntuación de un método con los valores Q de una política de referencia fuerte.

Los autores instanciaron QVal como QVal-v1.0 para realizar benchmarks de 21 métodos de supervisión densa en cuatro entornos diversos y siete familias metodológicas. La evaluación involucró más de 1.2K experimentos realizados en seis backbones de modelos de peso abierto.

El estudio encontró que las líneas base simples de prompting superan consistentemente a los métodos recientes de supervisión densa de la literatura, con un rendimiento agrupado fuertemente por familia. Estos hallazgos se mantienen en varios tamaños de modelo, entornos y modalidades de observación.