훈련 없는 그래프 프레임워크가 복잡한 문서 레이아웃의 읽기 순서를 추론

텍스트 스트림이 공간적으로 교차하는 Glossa Ordinaria 레이아웃과 같은 복잡한 역사적 사본의 읽기 순서를 추론하기 위해 훈련 없는 그래프 기반 프레임워크가 제안되었습니다. 이 방법은 OCR 라인에서 방향 후보 전이 그래프를 구성하고, 탐욕 선택 실패를 피하기 위해 최대 후회 추론 규칙을 사용하여 전역 순서를 복원합니다.

간선은 인과 언어 모델의 조건부 우도와 BERT 다음 문장 예측(NSP)의 가중 앙상블으로 점수가 매겨집니다.
합성 Glossa Ordinaria 레이아웃에서 이 방법은 평균적으로 정답 successor 간선의 95%를 복원하며, 재귀적 XY-cut의 50%와 비교됩니다.
OmniDocBench의 140페이지 다중 열 하위 집합에서 XY-cut의 75% 및 LayoutReader의 25% 대비 88%의 매크로 간선 정확도를 달성합니다.
이 접근 방식은 거울 대칭 불변성을 보여주며, 페이지 반전 시 1퍼센트 포인트 미만으로 변화하는 반면, LayoutReader-T는 최대 8포인트까지 변화합니다.

이 프레임워크는 XY-cut과 같은 정통 방법이 연쇄 실패에 직면하고, LayoutReader 기반 모델이 세분성 불일치로 인해 전이가 잘 되지 않는 복잡한 레이아웃의 디지털화 병목 현상을 해결합니다.