Pesquisadores apresentam o NeuroCogMap, um framework inspirado na neurociência cognitiva que organiza as características internas de grandes modelos de linguagem (LLMs) em parcelas funcionais ligadas a funções e capacidades interpretáveis.

  • O framework identifica uma organização estável e semanticamente coerente das representações internas que é parcialmente conservada entre diferentes modelos.
  • As principais falhas dos LLMs, como alucinação, viés, falha de recusa e sicofantismo, correspondem a interrupções distintas nos sistemas de representação e controle comportamental.
  • O NeuroCogMap melhora a previsão das respostas corticais humanas durante a compreensão da linguagem naturalista, com a correspondência mais forte encontrada na córtex de associação de ordem superior.
  • Assinaturas internas expõem estratégias latentes que orientam refinamentos dos modelos clássicos de tomada de decisão humana.

Essas descobertas estabelecem o NeuroCogMap como um framework em nível de sistema para mapear a organização funcional em sistemas artificiais e relacionar essa organização à função cortical humana e ao comportamento cognitivo.