Исследование оценивает десять систем OCR на текстах на языке Деванагари, показывая, что специализированные модели OCR с зрительным языковым анализом хрупки при деградации изображений, а высокая точность на английском не предсказывает точность для индийских скриптов.

  • На чистых рендерингах все десять систем группируются в диапазоне chrF++ от 91 до 98, но специализированные модели, такие как DeepSeek-OCR, страдают от катастрофических сбоев повторения при деградации.
  • На реальных отсканированных печатных документах девять из десяти систем значительно теряют качество: EasyOCR падает с chrF++ 93.6 до 58.3, а olmOCR-7B — до 40.5.
  • Gemini 2.5 Flash лидирует с chrF++ 86.3, за ним следует Claude Opus 4.7 с 82.2, тогда как открытая Qwen3-VL-8B (75.2) превосходит GPT-5.5 (58.5).
  • Пост-корректор на уровне байтов улучшает производительность собственной системы, но не переносится между различными OCR-системами.

Авторы публикуют бэнчмарк, код и модели, чтобы восполнить недостаток характеристики индийских скриптов в современных исследованиях OCR.