Um novo estudo apresenta a primeira avaliação sistemática de erros de referência de dados tabulares (DRE), que envolvem citar incorretamente ou omitir valores da tabela apesar de compreender a estrutura. A pesquisa encontra que esses erros ocorrem em todos os modelos testados, variando de 1.7B a 20B parâmetros.

  • Os DRE comprometem a correção e confiabilidade das etapas intermediárias de raciocínio em grandes modelos linguísticos.
  • Incorporar a referência de dados como um crítico melhora a precisão da resposta em até 12.0% por meio de filtragem e amostragem por rejeição.
  • Um modelo crítico leve de 4B parâmetros foi treinado, alcançando uma pontuação média F1 de 78.2% para detectar DREs tanto dentro quanto fora da distribuição.

Os autores demonstram que o uso de um modelo crítico dedicado auxilia efetivamente a inferência para modelos maiores ao identificar essas falhas específicas de referência.