一项新研究首次对表格数据引用错误(DRE)进行了系统性评估,这些错误涉及在理解结构的情况下错误引用或遗漏表格值。研究发现,这些错误出现在所有测试过的模型中,参数量从1.7B到20B不等。
- DRE损害了大型语言模型中间推理步骤的正确性和可靠性。
- 将数据引用作为评判器(critic)通过过滤和拒绝采样可将答案准确率提高高达12.0%。
- 训练了一个轻量级的4B参数评判模型,在检测分布内和分布外的DRE时平均F1分数达到78.2%。
作者证明,使用专用的评判模型可以通过识别这些特定的引用失败来有效地辅助更大模型的推理。