トレーニング不要なグラフフレームワークが複雑な文書レイアウトの読書順序を推論

トレーニング不要なグラフベースのフレームワークが提案され、テキストストリームが空間的に交差するGlossa Ordinariaレイアウトなどの複雑な歴史的写本の読書順序を推論します。この手法はOCR行から有向候補遷移グラフを構築し、貪欲選択の失敗を避けるために最大後悔推論規則を使用してグローバルな順序を復元します。

エッジは、因果言語モデルの条件付き尤度とBERTの次文予測（NSP）の重み付きアンサンブルによってスコアリングされます。
合成Glossa Ordinariaレイアウトにおいて、この手法は平均で正解の successor エッジの95%を復元し、再帰的XY-cutの50%と比較して優れています。
OmniDocBenchの140ページのマルチカラムサブセットでは、XY-cutの75%およびLayoutReaderの25%に対して88%のマクロエッジ精度を達成します。
このアプローチは鏡像不変性を示し、ページ反転下で1パーセントポイント未満の変化を示すのに対し、LayoutReader-Tは最大8ポイント変化します。

このフレームワークは、XY-cutのような正統派手法が連鎖的失敗に悩まされ、LayoutReaderベースラインが粒度の不整合により転移が不十分である複雑なレイアウトのデジタル化におけるボトルネックに対処します。