NeuroCogMap이 대규모 언어 모델의 인지 조직을 밝혀냄

연구자들은 신경 CogMap(NeuroCogMap)이라는 프레임워크를 제시했습니다. 이는 인지 신경과학에서 영감을 받은 것으로, 대규모 언어 모델(LLM)의 내부 특성을 해석 가능한 기능 및 능력과 연결된 기능적 영역으로 구성합니다.

이 프레임워크는 서로 다른 모델 간에 부분적으로 보존되는 안정적이고 의미적으로 일관된 내부 표현의 조직을 식별합니다.
환각, 편향, 거부 실패,迎合(영합)과 같은 주요 LLM의 실패는 표현 및 행동 제어 시스템의 뚜렷한 단절에 해당합니다.
NeuroCogMap은 자연스러운 언어 이해 동안 인간 대뇌 피질 반응의 예측을 개선하며, 가장 강한 대응 관계가 고차 연합 피질에서 발견되었습니다.
내부 시그니처는 인간의 의사결정에 대한 고전적 모델의 개선을 이끄는 잠재 전략을 드러냅니다.

이러한 발견들은 NeuroCogMap을 인공 시스템 내 기능적 조직을 매핑하고 이를 인간 대뇌 피질 기능 및 인지 행동과 연관시키는 시스템 수준 프레임워크로 확립합니다.