Testbed TrapQA mengungkap halusinasi model bahasa berasal dari ketidakselarasan inferensi

Para peneliti memperkenalkan TrapQA, sebuah testbed diagnostik yang dirancang untuk menyelidiki mengapa model bahasa besar menghasilkan jawaban halusinasi yang melanggar batasan prompt. Studi ini membingkai masalah ini sebagai "ketidakselarasan inferensi", di mana asosiasi laten yang secara statistik menonjol mengalahkan jalur penalaran sensitif batasan yang ditetapkan selama pra-pelatihan.

Kerangka kerja ini memanfaatkan model kunci-tugas laten untuk menunjukkan bagaimana ketidakseimbangan frekuensi pra-pelatihan dapat menyebabkan jalur pintasan mendominasi, menyebabkan kehilangan inferensi positif.
TrapQA terdiri dari ScientistQA, yang menguji disambiguasi entitas di antara ilmuwan serupa menggunakan probe faktual, dan Real-Life Constrained QA, yang mengevaluasi kepatuhan batasan sehari-hari di bawah jalur pintasan yang menonjol.
Hasil menunjukkan bahwa halusinasi sering kali muncul dari inferensi laten yang bias daripada sekadar kurangnya pengetahuan.

Temuan ini menunjukkan bahwa mengatasi ketidakcocokan antara jawaban yang didukung prompt dan asosiasi laten yang disukai sangat penting untuk mengurangi halusinasi pada model bahasa.