Новое исследование представляет первую систематическую оценку ошибок ссылок на табличные данные (DRE), которые заключаются в неправильном цитировании или пропуске значений таблицы при понимании её структуры. Исследование выявило, что эти ошибки возникают во всех протестированных моделях от 1.7B до 20B параметров.
- DRE снижают корректность и надёжность промежуточных шагов рассуждения в больших языковых моделях.
- Включение ссылок на данные в качестве критика повышает точность ответов до 12.0% за счёт фильтрации и отбора выборок.
- Была обучена лёгкая модель-критик на 4B параметров, достигшая среднего показателя F1 78.2% для обнаружения как внутри-, так и вне распределения DRE.
Авторы демонстрируют, что использование выделенной модели-критика эффективно помогает выводам более крупных моделей, выявляя эти конкретные ошибки ссылок.