Los investigadores presentan NeuroCogMap, un marco inspirado en la neurociencia cognitiva que organiza las características internas de los grandes modelos de lenguaje (LLM) en parcelas funcionales vinculadas a funciones y capacidades interpretables.
- El marco identifica una organización estable y semánticamente coherente de las representaciones internas que se conserva parcialmente entre diferentes modelos.
- Los principales fallos de los LLM, como la alucinación, el sesgo, el fallo de rechazo y la sicofantería, corresponden a interrupciones distintas en los sistemas de representación y control del comportamiento.
- NeuroCogMap mejora la predicción de las respuestas corticales humanas durante la comprensión del lenguaje naturalista, encontrándose la correspondencia más fuerte en la corteza de asociación de orden superior.
- Las firmas internas exponen estrategias latentes que guían los refinamientos de los modelos clásicos de toma de decisiones humanas.
Estos hallazgos establecen a NeuroCogMap como un marco a nivel de sistema para mapear la organización funcional en sistemas artificiales y relacionar esta organización con la función cortical humana y el comportamiento cognitivo.