Оценка устойчивости к визуальным возмущениям OCR-рассуждений в моделях «зрение-язык»

Авторы представляют OCR-Robust, бенчмарк, предназначенный для оценки устойчивости моделей «зрение-язык» при выполнении задач OCR-рассуждений в условиях визуальных возмущений. Датасет состоит из 812 примеров, разделенных на два подмножества: OCR1.0, охватывающее документы и рукописный текст, и OCR2.0, фокусирующееся на графиках и таблицах. Пилотное исследование выявило пять репрезентативных типов возмущений на трех уровнях серьезности для обеспечения эффективной оценки. В исследовании протестированы 18 моделей, включая проприетарные системы и открытые VLM (vision-language models), с использованием таких метрик, как Relative Corruption Retention и Worst-Case Retention. Результаты показывают, что более высокая точность на чистых данных не обязательно коррелирует с большей устойчивостью к визуальной деградации. Кроме того, анализ выявляет, что графики и таблицы существенно более хрупки по сравнению с входными данными, похожими на документы, при воздействии этих возмущений.