Обучаемая без обучения графовая структура определяет порядок чтения в сложных макетах документов

Предложен метод, не требующий обучения и основанный на графах, для определения порядка чтения в сложных исторических рукописях, таких как макет Glossa Ordinaria, где потоки текста пространственно переплетены. Метод строит направленный граф кандидатов-переходов из строк OCR и восстанавливает глобальный порядок с помощью правила вывода с максимальной регретом, чтобы избежать неудач жадного выбора.

Рёбра оцениваются взвешенным ансамблом условной правдоподобности причинной языковой модели и предсказания следующего предложения BERT (NSP).
На синтетических макетах Glossa Ordinaria метод в среднем восстанавливает 95% рёбер истинного преемника, по сравнению с 50% для рекурсивного XY-cut.
На подмножестве OmniDocBench из 140 страниц с несколькими колонками он достигает точности макро-рёбер на уровне 88% против 75% для XY-cut и 25% для LayoutReader.
Подход демонстрирует инвариантность к зеркальному отражению, изменяясь менее чем на один процентный пункт при отражении страниц, тогда как LayoutReader-T изменяется до 8 пунктов.

Эта структура решает узкое место оцифровки сложных макетов, где канонические методы, такие как XY-cut, страдают от каскадных сбоев, а базовые модели LayoutReader плохо переносятся из-за несоответствия гранулярности.