¿Los OCR-VLMs leen Devanagari? Estudio de benchmark y post-corrección

Un estudio realiza un benchmark de diez sistemas OCR en texto Devanagari, revelando que los modelos de lenguaje-visión OCR especializados son frágiles bajo degradación y que un alto rendimiento en inglés no predice la precisión en scripts indios.

En texto renderizado limpio, los diez sistemas se agrupan entre chrF++ 91 y 98, pero modelos especializados como DeepSeek-OCR sufren fallos catastróficos de repetición bajo degradación.
En escaneos impresos reales, nueve de los diez sistemas colapsan significativamente, con EasyOCR cayendo de chrF++ 93.6 a 58.3 y olmOCR-7B cayendo a 40.5.
Gemini 2.5 Flash lidera con chrF++ 86.3, seguido por Claude Opus 4.7 con 82.2, mientras que el open Qwen3-VL-8B (75.2) supera a GPT-5.5 (58.5).
Un post-corrector a nivel de bytes mejora el rendimiento en su propio motor pero no se transfiere entre diferentes sistemas OCR.

Los autores publican el benchmark, el código y los modelos para abordar la falta de caracterización de los scripts indios en la investigación actual de OCR.

Benchmark	Modelo	Puntuación
GAIA	Gemini 2.5 Flash	86.3%
GAIA	Claude Opus 4.7	82.2%
GAIA	Qwen3-VL-8B	75.2%
GAIA	GPT-5.5	58.5%
GAIA	EasyOCR	58.3%
GAIA	olmOCR-7B	40.5%

Benchmarks