GAVEL: Verificación y localización de errores en descripciones fundamentadas
Los modelos de visión e idioma frecuentemente generan salidas alucinadas donde el texto y las imágenes están desalineados, lo que requiere métodos que no solo detecten estos errores sino que también los expliquen y localicen la evidencia visual. Los autores presentan GAVEL, una tarea diseñada para abordar conjuntamente la verificación, la explicación y la localización para pares de imagen-texto, acompañada por un conjunto de datos y benchmark correspondientes.