El entorno de prueba TrapQA revela que las alucinaciones de los modelos de lenguaje provienen de un desajuste en la inferencia

Los investigadores presentan TrapQA, un entorno de prueba diagnóstico diseñado para investigar por qué los grandes modelos de lenguaje producen respuestas alucinatorias que violan las restricciones del prompt. El estudio enmarca este problema como un "desajuste de inferencia", donde las asociaciones latentes estadísticamente salientes anulan las rutas de razonamiento sensibles a las restricciones establecidas durante el preentrenamiento.

El marco utiliza un modelo de tarea clave latente para demostrar cómo el desequilibrio de frecuencia del preentrenamiento puede hacer que dominen las rutas cortas, induciendo una pérdida de inferencia positiva.
TrapQA consiste en ScientistQA, que prueba la desambiguación de entidades entre científicos similares mediante sondas factuales, y Real-Life Constrained QA, que evalúa el cumplimiento de restricciones cotidianas bajo atajos salientes.
Los resultados indican que las alucinaciones a menudo surgen de una inferencia latente sesgada en lugar de una simple falta de conocimiento.

Los hallazgos sugieren que abordar la discrepancia entre las respuestas apoyadas por el prompt y las asociaciones latentes favorecidas es crítico para reducir las alucinaciones en los modelos de lenguaje.