Se ha propuesto un marco basado en grafos y sin entrenamiento para inferir el orden de lectura en manuscritos históricos complejos, como el diseño de Glossa Ordinaria donde los flujos de texto están entrelazados espacialmente. El método construye un grafo dirigido de transiciones candidatas a partir de líneas OCR y recupera el orden global utilizando una regla de inferencia de arrepentimiento máximo para evitar fallos en la selección codiciosa.
- Las aristas se puntúan mediante un conjunto ponderado de verosimilitud condicional de modelos de lenguaje causal y predicción de la siguiente oración de BERT (NSP).
- En diseños sintéticos de Glossa Ordinaria, el método recupera en promedio el 95% de las aristas sucesoras de la verdad fundamental, en comparación con el 50% para XY-cut recursivo.
- En un subconjunto de OmniDocBench de 140 páginas con múltiples columnas, alcanza una precisión macro de aristas del 88% frente al 75% para XY-cut y el 25% para LayoutReader.
- El enfoque demuestra invarianza espejo, cambiando menos de un punto porcentual bajo reflexiones de página, mientras que LayoutReader-T cambia hasta 8 puntos.
Este marco aborda el cuello de botella de la digitalización de diseños complejos donde los métodos canónicos como XY-cut sufren fallos en cascada y las líneas base de LayoutReader se transfieren mal debido a discrepancias de granularidad.