Un estudio realiza un benchmark de diez sistemas OCR en texto Devanagari, revelando que los modelos de lenguaje-visión OCR especializados son frágiles bajo degradación y que un alto rendimiento en inglés no predice la precisión en scripts indios.
- En texto renderizado limpio, los diez sistemas se agrupan entre chrF++ 91 y 98, pero modelos especializados como DeepSeek-OCR sufren fallos catastróficos de repetición bajo degradación.
- En escaneos impresos reales, nueve de los diez sistemas colapsan significativamente, con EasyOCR cayendo de chrF++ 93.6 a 58.3 y olmOCR-7B cayendo a 40.5.
- Gemini 2.5 Flash lidera con chrF++ 86.3, seguido por Claude Opus 4.7 con 82.2, mientras que el open Qwen3-VL-8B (75.2) supera a GPT-5.5 (58.5).
- Un post-corrector a nivel de bytes mejora el rendimiento en su propio motor pero no se transfiere entre diferentes sistemas OCR.
Los autores publican el benchmark, el código y los modelos para abordar la falta de caracterización de los scripts indios en la investigación actual de OCR.