LLM कॉल के लिए सत्यापन गहराई पर एक पायलट बेंचमार्क तर्क देता है कि कैलिब्रेशन को तथ्यात्मक सटीकता से परे जाकर ज्ञानवादी दूषितकरण और फ्रेमिंग लीकेज को शामिल करना चाहिए। अध्ययन 'k*' को उस बिंदु के रूप में परिभाषित करता है जहां विश्वसनीयता अधिकतम होती है, इसे मानक रेट्रीवर top-k या स्टेट-घनत्व मेट्रिक्स से अलग करते हुए।
- केवल सटीकता पर आधारित कैलिब्रेशन अंधा हो सकता है; डुअल-इंस्ट्रूमेंटेड स्वीप में, प्रत्येक k ≥ 1 के लिए तथ्यात्मक सटीकता 1.000 पर स्थिर रही जबकि दूषितकरण संकेत 0.05–0.08 तक पहुंच गए।
- विश्वसनीयता-अनुकूल k* पांच कार्य प्रकारों के बीच भिन्न होता है: तथ्यात्मक रिकॉल, मल्टी-हॉप, स्टेट ट्रैकिंग, संघर्ष समाधान और बाधा अनुपालन।
- top-3, top-5 या संदर्भ विंडो भरने जैसे स्थिर डिफ़ॉल्ट को प्रत्येक मॉडल, कार्य प्रकार, संदर्भ प्रारूप और विश्वसनीयता अक्ष के लिए k* मापने के पक्ष में अनुशंसित नहीं किया जाता है।
यह दृष्टिकोण RAG सिस्टम, लॉंग-मेमोरी एजेंट्स और मॉडल राउटरों को सत्यापन गहराई को एक अनुमान के बजाय मापने योग्य डिप्लॉयमेंट पैरामीटर के रूप में संभालने में मदद करता है, जिससे ऑडिटबिलिटी और लागत नियंत्रण में सुधार होता है।