研究者らは、神経CogMap(NeuroCogMap)というフレームワークを発表した。これは認知神経科学に着想を得たもので、大規模言語モデル(LLM)の内部特徴を、解釈可能な機能や能力と結びついた機能的な領域に整理する。

  • このフレームワークは、異なるモデル間で部分的に保存されている、安定した意味的に一貫性のある内部表現の組織構造を特定する。
  • 幻覚、バイアス、拒否失敗、迎合といった主要なLLMの失敗は、表現および行動制御システムの明確な破綻に対応する。
  • NeuroCogMapは、自然な言語理解中の大脳皮質反応の予測を改善し、最も強い対応関係が高等連合野で見出された。
  • 内部シグネチャは、人間の意思決定に関する古典的モデルの改良を導く潜在戦略を明らかにする。

これらの知見は、NeuroCogMapを人工システムにおける機能的組織のマッピングと、この組織を人間の大脳皮質機能や認知行動に関連付けるためのシステムレベルのフレームワークとして確立する。