¿Puede LLM-as-a-Judge verificar confiablemente rúbricas en escenarios agénticos?
Este estudio investiga la fiabilidad del uso de Modelos de Lenguaje Grande como jueces para verificar rúbricas en complejos escenarios agénticos, presentando RuVerBench como el primer benchmark para este propósito. La investigación evalúa modelos de vanguardia en tareas de investigación profunda y codificación, revelando que, aunque el rendimiento es sólido, persiste un ruido significativo en la verificación.