Um novo estudo apresenta a primeira avaliação sistemática de erros de referência de dados tabulares (DRE), que envolvem citar incorretamente ou omitir valores da tabela apesar de compreender a estrutura. A pesquisa encontra que esses erros ocorrem em todos os modelos testados, variando de 1.7B a 20B parâmetros.
- Os DRE comprometem a correção e confiabilidade das etapas intermediárias de raciocínio em grandes modelos linguísticos.
- Incorporar a referência de dados como um crítico melhora a precisão da resposta em até 12.0% por meio de filtragem e amostragem por rejeição.
- Um modelo crítico leve de 4B parâmetros foi treinado, alcançando uma pontuação média F1 de 78.2% para detectar DREs tanto dentro quanto fora da distribuição.
Os autores demonstram que o uso de um modelo crítico dedicado auxilia efetivamente a inferência para modelos maiores ao identificar essas falhas específicas de referência.