Новое исследование представляет первую систематическую оценку ошибок ссылок на табличные данные (DRE), которые заключаются в неправильном цитировании или пропуске значений таблицы при понимании её структуры. Исследование выявило, что эти ошибки возникают во всех протестированных моделях от 1.7B до 20B параметров.

  • DRE снижают корректность и надёжность промежуточных шагов рассуждения в больших языковых моделях.
  • Включение ссылок на данные в качестве критика повышает точность ответов до 12.0% за счёт фильтрации и отбора выборок.
  • Была обучена лёгкая модель-критик на 4B параметров, достигшая среднего показателя F1 78.2% для обнаружения как внутри-, так и вне распределения DRE.

Авторы демонстрируют, что использование выделенной модели-критика эффективно помогает выводам более крупных моделей, выявляя эти конкретные ошибки ссылок.