연구자들은 신경 CogMap(NeuroCogMap)이라는 프레임워크를 제시했습니다. 이는 인지 신경과학에서 영감을 받은 것으로, 대규모 언어 모델(LLM)의 내부 특성을 해석 가능한 기능 및 능력과 연결된 기능적 영역으로 구성합니다.
- 이 프레임워크는 서로 다른 모델 간에 부분적으로 보존되는 안정적이고 의미적으로 일관된 내부 표현의 조직을 식별합니다.
- 환각, 편향, 거부 실패,迎合(영합)과 같은 주요 LLM의 실패는 표현 및 행동 제어 시스템의 뚜렷한 단절에 해당합니다.
- NeuroCogMap은 자연스러운 언어 이해 동안 인간 대뇌 피질 반응의 예측을 개선하며, 가장 강한 대응 관계가 고차 연합 피질에서 발견되었습니다.
- 내부 시그니처는 인간의 의사결정에 대한 고전적 모델의 개선을 이끄는 잠재 전략을 드러냅니다.
이러한 발견들은 NeuroCogMap을 인공 시스템 내 기능적 조직을 매핑하고 이를 인간 대뇌 피질 기능 및 인지 행동과 연관시키는 시스템 수준 프레임워크로 확립합니다.