新しい研究は、構造の理解にもかかわらず表の値を誤って引用したり省略したりするテーブルデータ参照エラー(DREs)の最初の系統的評価を示している。この調査では、1.7Bから20Bのパラメータを持つすべてのテスト済みモデルでこれらのエラーが発生することがわかった。

  • DREsは、大規模言語モデルにおける中間推論ステップの正確性と信頼性を損なう。
  • 批判者としてデータ参照を組み込むことで、フィルタリングと拒否サンプリングを通じて回答精度を最大12.0%向上させる。
  • 分布内および分布外のDREを検出するために平均F1スコア78.2%を達成した軽量4Bパラメータの批判者モデルが訓練された。

著者たちは、専用批判者モデルを使用することで、これらの特定の参照失敗を識別し、より大きなモデルの推論を効果的に支援できることを実証している。