Pesquisadores apresentam o TrapQA, um ambiente de teste diagnóstico projetado para investigar por que grandes modelos de linguagem produzem respostas alucinatórias que violam as restrições do prompt. O estudo enquadra esse problema como "desalinhamento de inferência", onde associações latentes estatisticamente salientes anulam caminhos de raciocínio sensíveis a restrições estabelecidos durante o pré-treinamento.

  • A estrutura utiliza um modelo de tarefa-chave latente para demonstrar como o desequilíbrio de frequência do pré-treinamento pode fazer com que caminhos curtos dominem, induzindo perda de inferência positiva.
  • O TrapQA consiste no ScientistQA, que testa a desambiguação de entidades entre cientistas semelhantes usando sondas factuais, e no Real-Life Constrained QA, que avalia o cumprimento de restrições cotidianas sob atalhos salientes.
  • Os resultados indicam que as alucinações frequentemente surgem de inferência latente enviesada em vez de uma simples falta de conhecimento.

As descobertas sugerem que abordar a discrepância entre as respostas apoiadas pelo prompt e as associações latentes favorecidas é crítico para reduzir alucinações em modelos de linguagem.