Исследование оценивает десять систем OCR на текстах на языке Деванагари, показывая, что специализированные модели OCR с зрительным языковым анализом хрупки при деградации изображений, а высокая точность на английском не предсказывает точность для индийских скриптов.
- На чистых рендерингах все десять систем группируются в диапазоне chrF++ от 91 до 98, но специализированные модели, такие как DeepSeek-OCR, страдают от катастрофических сбоев повторения при деградации.
- На реальных отсканированных печатных документах девять из десяти систем значительно теряют качество: EasyOCR падает с chrF++ 93.6 до 58.3, а olmOCR-7B — до 40.5.
- Gemini 2.5 Flash лидирует с chrF++ 86.3, за ним следует Claude Opus 4.7 с 82.2, тогда как открытая Qwen3-VL-8B (75.2) превосходит GPT-5.5 (58.5).
- Пост-корректор на уровне байтов улучшает производительность собственной системы, но не переносится между различными OCR-системами.
Авторы публикуют бэнчмарк, код и модели, чтобы восполнить недостаток характеристики индийских скриптов в современных исследованиях OCR.