Preguntar, no juzgar: preguntas binarias para la evaluación y auto-mejora interpretable de LLM

Los autores proponen BINEVAL, un marco que descompone los criterios de evaluación en preguntas binarias atómicas para proporcionar puntuaciones multidimensionales e interpretables para modelos de lenguaje grandes. Este enfoque genera retroalimentación transparente a nivel de pregunta y puntuaciones generales calibradas al hacer que un LLM responda preguntas de evaluación detalladas de forma independiente para cada salida.

BINEVAL iguala o supera a los métodos base como UniEval y G-Eval en los benchmarks SummEval, Topical-Chat y QAGS.
El método se ajusta mejor a las distribuciones de puntuación humana y evita los efectos de techo comunes en los jueces LLM anteriores.
Proporciona una discriminación superior entre salidas límite y claramente defectuosas en comparación con los métodos existentes.
El marco admite la optimización iterativa de prompts para tareas de resumen y generación bajo configuraciones de auto-actualización y actualización cruzada entre modelos.

BINEVAL ofrece un marco de evaluación agnóstico a la tarea y libre de entrenamiento que combina un fuerte rendimiento empírico con valor diagnóstico práctico y usabilidad directa para la mejora de prompts.