Un framework graphique sans entraînement infère l'ordre de lecture dans des mises en page complexes

Un framework basé sur les graphes et sans entraînement a été proposé pour inférer l'ordre de lecture dans des manuscrits historiques complexes, tels que la mise en page Glossa Ordinaria où les flux de texte sont entrelacés spatialement. La méthode construit un graphe de transitions candidates dirigées à partir des lignes OCR et récupère l'ordre global en utilisant une règle d'inférence par regret maximal pour éviter les échecs de sélection gourmande.

Les arêtes sont notées par un ensemble pondéré de la vraisemblance conditionnelle du modèle de langage causal et de la prédiction de phrase suivante (NSP) de BERT.
Sur des mises en page Glossa Ordinaria synthétiques, la méthode récupère en moyenne 95 % des arêtes successeur de référence, contre 50 % pour le découpage XY récursif.
Sur un sous-ensemble multi-colonnes de 140 pages d'OmniDocBench, elle atteint une précision macro des arêtes de 88 %, contre 75 % pour XY-cut et 25 % pour LayoutReader.
L'approche démontre une invariance par miroir, changeant de moins d'un point de pourcentage lors de réflexions de page, tandis que LayoutReader-T change jusqu'à 8 points.

Ce framework adresse le goulot d'étranglement de la numérisation des mises en page complexes où les méthodes canoniques comme XY-cut souffrent d'échecs en cascade et où les bases de référence LayoutReader se transfèrent mal en raison d'incompatibilités de granularité.