Модации зрения и языка часто генерируют галлюцинированные выводы, где текст и изображения не совпадают, что требует методов, которые не только обнаруживают эти ошибки, но и объясняют их и локализуют визуальные доказательства. Авторы представляют GAVEL — задачу, предназначенную для совместного решения вопросов верификации, объяснения и локализации для пар изображений-текста, сопровождаемую соответствующим набором данных и бенчмарком.
- GAVEL — новая задача, фокусирующаяся на совместной верификации, объяснении и локализации ошибок в подписях моделей зрения и языка.
- Предоставлен новый набор данных и бенчмарк для поддержки систематической оценки этих возможностей.
- Эксперименты показывают, что даже сильные закрытые модели испытывают трудности с задачей GAVEL.
- Обучение базовой модели на размеченных человеком данных даёт последовательные улучшения по метрикам заземления и объяснения.
Эта работа предоставляет обучаемую супервизию для верификации ошибок и их локализации, предлагая фреймворк для систематической оценки и улучшения согласованности между визуальными и текстовыми выводами в мультимодальных моделях.