सिंथेटिक RAG बेंचमार्क दिखाता है कि दस्तावेज़ आकार मॉडल ट्वीक्स से अधिक लाभ देता है

एक सिंथेटिक हेल्थकेर डेटाबेस बेंचमार्क प्रदर्शित करता है कि डेटा प्रतिनिधित्व को अनुकूलित करना, जैसे रोलअप दस्तावेज़ और स्मॉल-टू-बिग रिट्रीवल का उपयोग करना, क्वेरी रीराइटिंग और ररैंकिंग जैसी मानक RAG अपग्रेड्स से काफी बेहतर प्रदर्शन करता है।

लेखक ने विभिन्न RAG तकनीकों का परीक्षण करने के लिए नकली मरीजों, डॉक्टरों और बिलिंग रिकॉर्ड्स पर 30-प्रश्न वाला इवल सेट तैयार किया।
बेसिक वेक्टर सर्च ने 2.856/5 का उत्तर स्कोर प्राप्त किया, जबकि क्वेरी रीराइटिंग और BGE ररैंकिंग जोड़ने से यह केवल 3.056/5 तक बढ़ा।
स्मॉल-टू-बिग रिट्रीवल (छोटे चंक्स की खोज फिर पूर्ण रिकॉर्ड्स तक विस्तार) ने सटीक मिलान प्रदान करके संदर्भ की कमी के बिना स्कोर को 4.044/5 तक बढ़ाया।
अपॉइंटमेंट लोड और बिलिंग टोटल्स जैसे एग्रीगेट्स के लिए पूर्व-गणना किए गए रोलअप दस्तावेज़ जोड़ने से उत्तर स्कोर 4.622/5 और कठिन प्रश्न स्कोर 4.500/5 तक बढ़ गया।
एक अंतिम Jina ररैंकर रन ने सबसे उच्च रिट्रीवल MRR 0.792 प्राप्त किया, लेकिन रोलअप सेटअप ने सर्वोत्तम समग्र उत्तर गुणवत्ता प्रदान की।

परिणाम सुझाव देते हैं कि RAG गुणवत्ता अक्सर एक मॉडल समस्या के बजाय डेटा प्रतिनिधित्व समस्या होती है, जो एंटिटी-लेवल लुकअप्स या एग्रीगेट कैलकुलेशन जैसी क्वेरी प्रकारों के साथ दस्तावेज़ संरचना को समान करने की आवश्यकता पर जोर देती है।