OCR-VLMs читают Деванагари? Бэнчмарк и исследование пост-коррекции

Исследование оценивает десять систем OCR на текстах на языке Деванагари, показывая, что специализированные модели OCR с зрительным языковым анализом хрупки при деградации изображений, а высокая точность на английском не предсказывает точность для индийских скриптов.

На чистых рендерингах все десять систем группируются в диапазоне chrF++ от 91 до 98, но специализированные модели, такие как DeepSeek-OCR, страдают от катастрофических сбоев повторения при деградации.
На реальных отсканированных печатных документах девять из десяти систем значительно теряют качество: EasyOCR падает с chrF++ 93.6 до 58.3, а olmOCR-7B — до 40.5.
Gemini 2.5 Flash лидирует с chrF++ 86.3, за ним следует Claude Opus 4.7 с 82.2, тогда как открытая Qwen3-VL-8B (75.2) превосходит GPT-5.5 (58.5).

Пост-корректор на уровне байтов улучшает производительность собственной системы, но не переносится между различными OCR-системами.

Авторы публикуют бэнчмарк, код и модели, чтобы восполнить недостаток характеристики индийских скриптов в современных исследованиях OCR.

Бенчмарк	Модель	Результат
GAIA	Gemini 2.5 Flash	86.3%
GAIA	Claude Opus 4.7	82.2%
GAIA	Qwen3-VL-8B	75.2%
GAIA	GPT-5.5	58.5%
GAIA	EasyOCR	58.3%
GAIA	olmOCR-7B	40.5%

Бенчмарки