Estrutura gráfica sem treinamento infere ordem de leitura em layouts complexos de documentos

Foi proposta uma estrutura baseada em grafos e sem treinamento para inferir a ordem de leitura em manuscritos históricos complexos, como o layout do Glossa Ordinaria onde os fluxos de texto estão espacialmente entrelaçados. O método constrói um grafo dirigido de transições candidatas a partir de linhas OCR e recupera a ordem global usando uma regra de inferência de arrependimento máximo para evitar falhas na seleção gulosa.

As arestas são pontuadas por um conjunto ponderado de verossimilhança condicional de modelos de linguagem causal e previsão da próxima frase do BERT (NSP).
Em layouts sintéticos do Glossa Ordinaria, o método recupera em média 95% das arestas sucessoras da verdade fundamental, comparado a 50% para XY-cut recursivo.
Em um subconjunto de OmniDocBench com 140 páginas e múltiplas colunas, ele alcança precisão macro de arestas de 88% contra 75% para XY-cut e 25% para LayoutReader.
A abordagem demonstra invariância espelhada, mudando menos de um ponto percentual sob reflexões de página, enquanto o LayoutReader-T muda até 8 pontos.

Esta estrutura aborda o gargalo da digitalização de layouts complexos onde métodos canônicos como XY-cut sofrem falhas em cascata e as linhas de base do LayoutReader transferem-se mal devido a discrepâncias de granularidade.