NeuroCogMap revela la organización cognitiva de los grandes modelos de lenguaje

Los investigadores presentan NeuroCogMap, un marco inspirado en la neurociencia cognitiva que organiza las características internas de los grandes modelos de lenguaje (LLM) en parcelas funcionales vinculadas a funciones y capacidades interpretables.

El marco identifica una organización estable y semánticamente coherente de las representaciones internas que se conserva parcialmente entre diferentes modelos.
Los principales fallos de los LLM, como la alucinación, el sesgo, el fallo de rechazo y la sicofantería, corresponden a interrupciones distintas en los sistemas de representación y control del comportamiento.
NeuroCogMap mejora la predicción de las respuestas corticales humanas durante la comprensión del lenguaje naturalista, encontrándose la correspondencia más fuerte en la corteza de asociación de orden superior.
Las firmas internas exponen estrategias latentes que guían los refinamientos de los modelos clásicos de toma de decisiones humanas.

Estos hallazgos establecen a NeuroCogMap como un marco a nivel de sistema para mapear la organización funcional en sistemas artificiales y relacionar esta organización con la función cortical humana y el comportamiento cognitivo.