व्यवस्थित मूल्यांकन दिखाता है कि LLMs सभी आकारों में डेटा संदर्भ त्रुटियाँ करते हैं

एक नई अध्ययन सारणीबद्ध डेटा संदर्भ त्रुटियों (DREs) का पहला व्यवस्थित मूल्यांकन प्रस्तुत करता है, जिसमें संरचना को समझने के बावजूद तालिका मानों को गलत तरीके से उद्धृत करना या छोड़ना शामिल है। शोध पाता है कि ये त्रुटियाँ 1.7B से 20B पैरामीटर तक सभी परीक्षण किए गए मॉडलों में होती हैं।

DREs बड़े भाषा मॉडलों में मध्यवर्ती तर्क चरणों की सटीकता और विश्वसनीयता को कमजोर करते हैं।
एक आलोचक के रूप में डेटा संदर्भ को शामिल करने से फ़िल्टरिंग और अस्वीकृति नमूनाकरण के माध्यम से उत्तर की सटीकता 12.0% तक बढ़ जाती है।
एक हल्के 4B-पैरामीटर आलोचक मॉडल को प्रशिक्षित किया गया, जिसने वितरण के भीतर और बाहर दोनों DREs का पता लगाने के लिए 78.2% की औसत F1 स्कोर प्राप्त की।

लेखकों ने दिखाया है कि एक समर्पित आलोचक मॉडल का उपयोग करके बड़े मॉडलों के लिए निष्कर्षण में इन विशिष्ट संदर्भ विफलताओं की पहचान करके प्रभावी रूप से सहायता मिलती है।