Ambiente de teste TrapQA revela que alucinações de modelos de linguagem decorrem de desalinhamento na inferência

Pesquisadores apresentam o TrapQA, um ambiente de teste diagnóstico projetado para investigar por que grandes modelos de linguagem produzem respostas alucinatórias que violam as restrições do prompt. O estudo enquadra esse problema como "desalinhamento de inferência", onde associações latentes estatisticamente salientes anulam caminhos de raciocínio sensíveis a restrições estabelecidos durante o pré-treinamento.

A estrutura utiliza um modelo de tarefa-chave latente para demonstrar como o desequilíbrio de frequência do pré-treinamento pode fazer com que caminhos curtos dominem, induzindo perda de inferência positiva.
O TrapQA consiste no ScientistQA, que testa a desambiguação de entidades entre cientistas semelhantes usando sondas factuais, e no Real-Life Constrained QA, que avalia o cumprimento de restrições cotidianas sob atalhos salientes.
Os resultados indicam que as alucinações frequentemente surgem de inferência latente enviesada em vez de uma simples falta de conhecimento.

As descobertas sugerem que abordar a discrepância entre as respostas apoiadas pelo prompt e as associações latentes favorecidas é crítico para reduzir alucinações em modelos de linguagem.