تجربة معيارية أولية حول عمق الأدلة لاستدعاءات نماذج اللغات الكبيرة تجادل بأن المعايرة يجب أن تمتد إلى ما وراء الدقة الواقعية لتشمل التلوث المعرفي وتسرب الإطارات. تعرف الدراسة على 'k*' بأنه نقطة تشبع الأدلة حيث يتم تعظيم الموثوقية، مما يميزها عن مقاييس top-k القياسية أو كثافة الحالة.
- يمكن أن تكون المعايرة القائمة على الدقة فقط عمياء؛ في مسح مزدوج التجهيز، بقيت الدقة الواقعية ثابتة عند 1.000 لكل k ≥ 1 بينما وصلت إشارات التلوث إلى 0.05–0.08.
- يختلف k* الأمثل للموثوقية عبر خمسة أنواع من المهام: الاسترجاع الواقعي، متعدد الخطوات، تتبع الحالة، حل التعارض، واتباع القيود.
- يتم تثبيط الإعدادات الثابتة مثل top-3 أو top-5 أو ملء نافذة السياق لصالح قياس k* لكل نموذج، ونوع المهمة، وتنسيق السياق، ومحور الموثوقية.
يساعد هذا النهج أنظمة RAG والوكلاء ذوي الذاكرة الطويلة وموجهي النماذج على معاملة عمق الأدلة كمعيار نشر مقاس بدلاً من تخمين، مما يحسن إمكانية التدقيق والتحكم في التكاليف.