arxiv arXiv cs.CL · 2 小时前 · 来源： 4 天前 · research

NeuroCogMap揭示了大型语言模型的组织

译自 English → 中文

研究人员提出了NeuroCogMap，这是一个受认知神经科学启发的框架，将大型语言模型（LLM）的内部特征组织成与可解释功能和能力相关的功能区域。

该框架识别出内部表征的稳定、语义连贯的组织结构，这种结构在不同模型间部分保守。
大型语言模型的主要失败，如幻觉、偏见、拒绝失败和谄媚，对应于表征和行为控制系统中的不同中断。
NeuroCogMap提高了对自然语言理解过程中人类皮层反应的预测能力，在高级联合皮层中发现了对应关系最强。
内部特征揭示了指导经典人类决策模型完善的潜在策略。

这些发现确立了NeuroCogMap作为映射人工系统中功能组织的系统级框架，并将这种组织与人类皮层功能和认知行为联系起来。

重要性 1/3 具有差异化优势的新评测框架 arXiv cs.CL Evaluation & benchmarks Research paper