TrapQAテストベッドが明らかにする言語モデルの幻覚は推論の不一致に起因

研究者らは、大規模言語モデルがプロンプトの制約に違反する幻覚的な回答を生成する理由を調査するために設計された診断用テストベッドであるTrapQAを紹介している。本研究はこの問題を「推論の不一致」として位置づけており、統計的に顕著な潜在的要因間の関連性が、事前学習中に確立された制約感受性の高い推論経路を上回ることを示している。

このフレームワークは潜在キータスクモデルを利用し、事前学習頻度の不均衡がショートカット経路を支配し、正の推論損失を引き起こす仕組みを実証する。
TrapQAには、類似する科学者間のエンティティの曖昧さ解消を事実プローブでテストするScientistQAと、顕著なショートカット下での日常的な制約遵守を評価するReal-Life Constrained QAが含まれる。
結果は、幻覚が単なる知識不足ではなく、バイアスのかかった潜在推論から生じることが多いことを示している。

これらの知見は、プロンプトで支持される回答と好まれる潜在的要因間の関連性の不一致に対処することが、言語モデルにおける幻覚を減らすために重要であることを示唆している。