प्रशिक्षण-मुक्त ग्राफ़ फ्रेमवर्क जटिल दस्तावेज़ लेआउट में पढ़ने के क्रम का अनुमान लगाता है

जटिल ऐतिहासिक हस्तलिखितों, जैसे Glossa Ordinaria लेआउट जहाँ पाठ प्रवाह स्थानिक रूप से अंतर्ग्रथित हैं, में पढ़ने के क्रम का अनुमान लगाने के लिए एक प्रशिक्षण-मुक्त, ग्राफ़-आधारित फ्रेमवर्क प्रस्तावित किया गया है। विधि OCR पंक्तियों से एक निर्देशांक उम्मीदवार-संक्रमण ग्राफ़ बनाती है और लालची चयन विफलताओं से बचने के लिए अधिकतम पश्चाताप अनुमान नियम का उपयोग करके वैश्विक क्रम को पुनर्स्थापित करती है।

किनारों का स्कोर कारणभावी भाषा मॉडल की सशर्त संभावना और BERT अगले वाक्य पूर्वानुमान (NSP) के भारित एन्सेंबल द्वारा लगाया जाता है।
सिंथेटिक Glossa Ordinaria लेआउट पर, विधि औसतन 95% भूमि-सत्य उत्तराधिकारी किनारों को पुनर्स्थापित करती है, जबकि पुनरावर्ती XY-cut के लिए यह 50% है।
OmniDocBench की 140 पृष्ठों वाली बहु-स्तंभ उपसमुच्चय पर, यह XY-cut के लिए 75% और LayoutReader के लिए 25% के मुकाबले 88% मैक्रो किनार सटीकता प्राप्त करता है।
दृष्टिकोण दर्शाता है कि यह प्रतिबिंब-अपरिवर्तनीय है, पृष्ठ प्रतिबिंबों के तहत 1 प्रतिशत बिंदु से कम बदलता है, जबकि LayoutReader-T 8 बिंदुओं तक बदलता है।

यह फ्रेमवर्क जटिल लेआउट के डिजिटलीकरण की बाधा को संबोधित करता है जहाँ XY-cut जैसे मानक विधि कस्केडिंग विफलताओं से ग्रस्त होती हैं और LayoutReader आधाररेखाएँ दानेदारी असंगतियों के कारण खराब रूप से स्थानांतरित होती हैं।