Les chercheurs présentent NeuroCogMap, un cadre inspiré des neurosciences cognitives qui organise les caractéristiques internes des grands modèles de langage (LLM) en parcelles fonctionnelles liées à des fonctions et capacités interprétables.

  • Le cadre identifie une organisation stable et sémantiquement cohérente des représentations internes qui est partiellement conservée entre différents modèles.
  • Les échecs majeurs des LLM tels que l'hallucination, le biais, l'échec du refus et la servilité correspondent à des perturbations distinctes dans les systèmes de représentation et de contrôle comportemental.
  • NeuroCogMap améliore la prédiction des réponses corticales humaines lors de la compréhension du langage naturel, avec la correspondance la plus forte trouvée dans le cortex d'association d'ordre supérieur.
  • Les signatures internes exposent des stratégies latentes qui guident les raffinements des modèles classiques de la prise de décision humaine.

Ces résultats établissent NeuroCogMap comme un cadre au niveau du système pour cartographier l'organisation fonctionnelle dans les systèmes artificiels et relier cette organisation à la fonction corticale humaine et au comportement cognitif.