GAVEL: Проверка и локализация ошибок в заземлённых подписях
Модации зрения и языка часто генерируют галлюцинированные выводы, где текст и изображения не совпадают, что требует методов, которые не только обнаруживают эти ошибки, но и объясняют их и локализуют визуальные доказательства. Авторы представляют GAVEL — задачу, предназначенную для совместного решения вопросов верификации, объяснения и локализации для пар изображений-текста, сопровождаемую соответствующим набором данных и бенчмарком.