提出了一种无需训练、基于图的框架,用于推断复杂历史手稿(如 Glossa Ordinaria 布局)中的阅读顺序,其中文本流在空间上交错。该方法从 OCR 行构建有向候选转换图,并使用最大遗憾推理规则恢复全局顺序,以避免贪婪选择失败。
- 边的评分由因果语言模型条件似然和 BERT 下一句预测 (NSP) 的加权集成组成。
- 在合成 Glossa Ordinaria 布局上,该方法平均恢复了 95% 的真实后继边,而递归 XY-cut 仅为 50%。
- 在 OmniDocBench 的 140 页多列子集上,它实现了 88% 的宏观边准确率,而 XY-cut 为 75%,LayoutReader 为 25%。
- 该方法展示了镜像不变性,在页面反射下变化小于 1 个百分点,而 LayoutReader-T 的变化高达 8 个百分点。
该框架解决了数字化复杂布局的瓶颈问题,其中 XY-cut 等规范方法会遭受级联故障,而 LayoutReader 基线由于粒度不匹配而迁移效果不佳。