Los modelos de visión e idioma frecuentemente generan salidas alucinadas donde el texto y las imágenes están desalineados, lo que requiere métodos que no solo detecten estos errores sino que también los expliquen y localicen la evidencia visual. Los autores presentan GAVEL, una tarea diseñada para abordar conjuntamente la verificación, la explicación y la localización para pares de imagen-texto, acompañada por un conjunto de datos y benchmark correspondientes.
- GAVEL es una nueva tarea centrada en la verificación conjunta, explicación y localización de errores en las descripciones de modelos de visión e idioma.
- Se proporciona un nuevo conjunto de datos y benchmark para apoyar la evaluación sistemática de estas capacidades.
- Los experimentos revelan que incluso los modelos cerrados muy potentes tienen dificultades con la tarea GAVEL.
- Entrenar una línea base supervisada en datos anotados por humanos produce mejoras consistentes en las métricas de fundamentación y explicación.
Este trabajo proporciona supervisión aprendible para la verificación y localización de errores, ofreciendo un marco para evaluar y mejorar sistemáticamente la alineación entre las salidas visuales y textuales en modelos multimodales.