Los autores proponen BINEVAL, un marco que descompone los criterios de evaluación en preguntas binarias atómicas para proporcionar puntuaciones multidimensionales e interpretables para modelos de lenguaje grandes. Este enfoque genera retroalimentación transparente a nivel de pregunta y puntuaciones generales calibradas al hacer que un LLM responda preguntas de evaluación detalladas de forma independiente para cada salida.
- BINEVAL iguala o supera a los métodos base como UniEval y G-Eval en los benchmarks SummEval, Topical-Chat y QAGS.
- El método se ajusta mejor a las distribuciones de puntuación humana y evita los efectos de techo comunes en los jueces LLM anteriores.
- Proporciona una discriminación superior entre salidas límite y claramente defectuosas en comparación con los métodos existentes.
- El marco admite la optimización iterativa de prompts para tareas de resumen y generación bajo configuraciones de auto-actualización y actualización cruzada entre modelos.
BINEVAL ofrece un marco de evaluación agnóstico a la tarea y libre de entrenamiento que combina un fuerte rendimiento empírico con valor diagnóstico práctico y usabilidad directa para la mejora de prompts.