¿Puede LLM-as-a-Judge verificar confiablemente rúbricas en escenarios agénticos?

Este estudio investiga la fiabilidad del uso de Modelos de Lenguaje Grande como jueces para verificar rúbricas en complejos escenarios agénticos, presentando RuVerBench como el primer benchmark para este propósito. La investigación evalúa modelos de vanguardia en tareas de investigación profunda y codificación, revelando que, aunque el rendimiento es sólido, persiste un ruido significativo en la verificación.

RuVerBench contiene 2,458 instancias que cubren los dominios de investigación profunda y codificación agéntica, cada una con salidas del modelo, rúbricas y etiquetas anotadas por humanos.
Incluso los LLMs más avanzados exhiben un ruido sustancial al verificar rúbricas en escenarios agénticos.
Se encuentra que los modelos más débiles son más sensibles a las variaciones de prompt en comparación con los más fuertes.
La verificación en lotes presenta un compromiso entre precisión y eficiencia.
El voto mayoritario proporciona retornos decrecientes pero efectivos para la fiabilidad.

Los autores han liberado su conjunto de datos y código para facilitar futuras investigaciones sobre la mejora de la consistencia de los métodos de evaluación automatizada.