Foi proposta uma estrutura baseada em grafos e sem treinamento para inferir a ordem de leitura em manuscritos históricos complexos, como o layout do Glossa Ordinaria onde os fluxos de texto estão espacialmente entrelaçados. O método constrói um grafo dirigido de transições candidatas a partir de linhas OCR e recupera a ordem global usando uma regra de inferência de arrependimento máximo para evitar falhas na seleção gulosa.
- As arestas são pontuadas por um conjunto ponderado de verossimilhança condicional de modelos de linguagem causal e previsão da próxima frase do BERT (NSP).
- Em layouts sintéticos do Glossa Ordinaria, o método recupera em média 95% das arestas sucessoras da verdade fundamental, comparado a 50% para XY-cut recursivo.
- Em um subconjunto de OmniDocBench com 140 páginas e múltiplas colunas, ele alcança precisão macro de arestas de 88% contra 75% para XY-cut e 25% para LayoutReader.
- A abordagem demonstra invariância espelhada, mudando menos de um ponto percentual sob reflexões de página, enquanto o LayoutReader-T muda até 8 pontos.
Esta estrutura aborda o gargalo da digitalização de layouts complexos onde métodos canônicos como XY-cut sofrem falhas em cascata e as linhas de base do LayoutReader transferem-se mal devido a discrepâncias de granularidade.