Evaluación de la Robustez del Razonamiento OCR en Modelos Visión-Lenguaje Bajo Perturbaciones Visuales

Los autores presentan OCR-Robust, un benchmark diseñado para evaluar la robustez de los modelos visión-lenguaje durante tareas de razonamiento OCR bajo perturbaciones visuales. El conjunto de datos comprende 812 muestras divididas en dos subconjuntos: OCR1.0, que cubre documentos y escritura a mano, y OCR2.0, centrado en gráficos y tablas. Un estudio piloto identificó cinco tipos de perturbación representativos en tres niveles de severidad para garantizar una evaluación eficiente. El estudio compara 18 modelos, incluyendo sistemas propietarios y VLMs de código abierto, utilizando métricas como Retención de Corrupción Relativa y Retención del Peor Caso. Los resultados indican que una mayor precisión en condiciones limpias no necesariamente se correlaciona con una mayor robustez frente a la degradación visual. Además, el análisis revela que los gráficos y las tablas son sustancialmente más frágiles que las entradas similares a documentos cuando se someten a estas perturbaciones.