研究人员提出了NeuroCogMap,这是一个受认知神经科学启发的框架,将大型语言模型(LLM)的内部特征组织成与可解释功能和能力相关的功能区域。
- 该框架识别出内部表征的稳定、语义连贯的组织结构,这种结构在不同模型间部分保守。
- 大型语言模型的主要失败,如幻觉、偏见、拒绝失败和谄媚,对应于表征和行为控制系统中的不同中断。
- NeuroCogMap提高了对自然语言理解过程中人类皮层反应的预测能力,在高级联合皮层中发现了对应关系最强。
- 内部特征揭示了指导经典人类决策模型完善的潜在策略。
这些发现确立了NeuroCogMap作为映射人工系统中功能组织的系统级框架,并将这种组织与人类皮层功能和认知行为联系起来。