Kerangka kerja graf tanpa pelatihan menyimpulkan urutan bacaan dalam tata letak dokumen kompleks

Sebuah kerangka kerja berbasis graf tanpa pelatihan telah diusulkan untuk menyimpulkan urutan bacaan dalam manuskrip sejarah yang kompleks, seperti tata letak Glossa Ordinaria di mana aliran teks terjalin secara spasial. Metode ini membangun grafik transisi kandidat berarah dari baris OCR dan memulihkan urutan global menggunakan aturan inferensi regret maksimum untuk menghindari kegagalan pemilihan serakah.

Tepi diberi skor oleh ensemble tertimbang dari likelihood bersyarat model bahasa kausal dan prediksi kalimat berikutnya (NSP) BERT.
Pada tata letak Glossa Ordinaria sintetis, metode ini memulihkan rata-rata 95% tepi successor ground-truth, dibandingkan dengan 50% untuk XY-cut rekursif.
Pada subset multi-kolom 140 halaman dari OmniDocBench, metode ini mencapai akurasi tepi makro sebesar 88%, versus 75% untuk XY-cut dan 25% untuk LayoutReader.
Pendekatan ini menunjukkan invariansi cermin, berubah kurang dari satu poin persentase di bawah refleksi halaman, sedangkan LayoutReader-T berubah hingga 8 poin.

Kerangka kerja ini mengatasi hambatan digitalisasi tata letak kompleks di mana metode kanonik seperti XY-cut menderita kegagalan berantai dan baseline LayoutReader mentransfer dengan buruk karena ketidakcocokan granularitas.