研究人员提出了NeuroCogMap,这是一个受认知神经科学启发的框架,将大型语言模型(LLM)的内部特征组织成与可解释功能和能力相关的功能区域。

  • 该框架识别出内部表征的稳定、语义连贯的组织结构,这种结构在不同模型间部分保守。
  • 大型语言模型的主要失败,如幻觉、偏见、拒绝失败和谄媚,对应于表征和行为控制系统中的不同中断。
  • NeuroCogMap提高了对自然语言理解过程中人类皮层反应的预测能力,在高级联合皮层中发现了对应关系最强。
  • 内部特征揭示了指导经典人类决策模型完善的潜在策略。

这些发现确立了NeuroCogMap作为映射人工系统中功能组织的系统级框架,并将这种组织与人类皮层功能和认知行为联系起来。