Le testbed TrapQA révèle que les hallucinations des modèles de langage proviennent d'un désalignement de l'inférence

Les chercheurs présentent TrapQA, un testbed de diagnostic conçu pour enquêter sur la raison pour laquelle les grands modèles de langage produisent des réponses hallucinées qui violent les contraintes du prompt. Cette étude cadre ce problème comme un « désalignement de l'inférence », où des associations latentes statistiquement saillantes surpassent les chemins d'inférence sensibles aux contraintes établis lors du pré-entraînement.

Le framework utilise un modèle clé-tâche latent pour démontrer comment un déséquilibre de fréquence lors du pré-entraînement peut faire dominer des chemins raccourcis, induisant une perte d'inférence positive.
TrapQA comprend ScientistQA, qui teste la désambiguïsation d'entités parmi des scientifiques similaires à l'aide de sondes factuelles, et Real-Life Constrained QA, qui évalue le respect des contraintes quotidiennes sous des raccourcis saillants.
Les résultats indiquent que les hallucinations proviennent souvent d'une inférence latente biaisée plutôt que d'un simple manque de connaissances.

Les conclusions suggèrent qu'il est crucial de traiter le décalage entre les réponses soutenues par le prompt et les associations latentes favorisées pour réduire les hallucinations dans les modèles de langage.