GAVEL: Verificación y localización de errores en descripciones fundamentadas

Los modelos de visión e idioma frecuentemente generan salidas alucinadas donde el texto y las imágenes están desalineados, lo que requiere métodos que no solo detecten estos errores sino que también los expliquen y localicen la evidencia visual. Los autores presentan GAVEL, una tarea diseñada para abordar conjuntamente la verificación, la explicación y la localización para pares de imagen-texto, acompañada por un conjunto de datos y benchmark correspondientes.

GAVEL es una nueva tarea centrada en la verificación conjunta, explicación y localización de errores en las descripciones de modelos de visión e idioma.
Se proporciona un nuevo conjunto de datos y benchmark para apoyar la evaluación sistemática de estas capacidades.
Los experimentos revelan que incluso los modelos cerrados muy potentes tienen dificultades con la tarea GAVEL.
Entrenar una línea base supervisada en datos anotados por humanos produce mejoras consistentes en las métricas de fundamentación y explicación.

Este trabajo proporciona supervisión aprendible para la verificación y localización de errores, ofreciendo un marco para evaluar y mejorar sistemáticamente la alineación entre las salidas visuales y textuales en modelos multimodales.