Sebuah studi baru menyajikan evaluasi sistematis pertama mengenai kesalahan referensi data tabel (DRE), yang melibatkan pengutipan atau penghilangan nilai tabel secara salah meskipun memahami strukturnya. Penelitian ini menemukan bahwa kesalahan ini terjadi pada semua model yang diuji mulai dari 1,7B hingga 20B parameter.

  • DRE mengkompromikan kebenaran dan keandalan langkah penalaran perantara dalam model bahasa besar.
  • Mengintegrasikan referensi data sebagai kritikus meningkatkan akurasi jawaban hingga 12,0% melalui penyaringan dan pengambilan sampel penolakan.
  • Sebuah model kritikus ringan dengan 4B parameter dilatih, mencapai skor F1 rata-rata 78,2% untuk mendeteksi DRE dalam distribusi dan luar distribusi.

Para penulis menunjukkan bahwa menggunakan model kritikus khusus secara efektif membantu inferensi untuk model yang lebih besar dengan mengidentifikasi kegagalan referensi spesifik ini.