系统性评估显示，LLM在所有尺寸下都会出现数据引用错误

一项新研究首次对表格数据引用错误（DRE）进行了系统性评估，这些错误涉及在理解结构的情况下错误引用或遗漏表格值。研究发现，这些错误出现在所有测试过的模型中，参数量从1.7B到20B不等。

作者证明，使用专用的评判模型可以通过识别这些特定的引用失败来有效地辅助更大模型的推理。