تظهر التقييمات المنهجية أن نماذج اللغات الكبيرة ترتكب أخطاء في مرجعية البيانات عبر جميع الأحجام

تقدم دراسة جديدة أول تقييم منهجي لأخطاء مرجعية البيانات الجدولية (DREs)، والتي تتضمن الاستشهاد بقيم الجداول بشكل غير صحيح أو حذفها رغم فهم الهيكل. وجدت البحث أن هذه الأخطاء تحدث عبر جميع النماذج المختبرة تتراوح من 1.7B إلى 20B معلمة.

أخطاء مرجعية البيانات تقوض صحة وموثوقية خطوات الاستدلال الوسيطة في نماذج اللغات الكبيرة.
دمج مرجعية البيانات كمُقيّم يحسن دقة الإجابات بنسبة تصل إلى 12.0% عبر التصفية وأخذ العينات بالرفض.
تم تدريب نموذج مُقيّم خفيف الوزن بـ4B معلمة، محققاً متوسط درجة F1 تبلغ 78.2% لكشف أخطاء مرجعية البيانات داخل التوزيع وخارجه.

يُظهر المؤلفون أن استخدام نموذج مُقيّم مخصص يساعد بشكل فعال في الاستدلال للنماذج الأكبر من خلال تحديد إخفاقات المرجعية المحددة هذه.