Para peneliti menyajikan NeuroCogMap, sebuah kerangka kerja yang terinspirasi oleh neurosains kognitif yang mengatur fitur internal model bahasa besar (LLM) menjadi bagian fungsional yang terhubung ke fungsi dan kemampuan yang dapat diinterpretasikan.
- Kerangka kerja ini mengidentifikasi organisasi representasi internal yang stabil dan koheren secara semantik yang sebagian dilestarikan di berbagai model.
- Kegagalan utama LLM seperti halusinasi, bias, kegagalan penolakan, dan sifantisme sesuai dengan gangguan yang berbeda dalam sistem kontrol representasi dan perilaku.
- NeuroCogMap meningkatkan prediksi respons kortikal manusia selama pemahaman bahasa alami, dengan korespondensi terkuat ditemukan di korteks asosiasi tingkat tinggi.
- Tanda tangan internal mengekspos strategi laten yang membimbing penyempurnaan model klasik pengambilan keputusan manusia.
Temuan ini menetapkan NeuroCogMap sebagai kerangka kerja tingkat sistem untuk memetakan organisasi fungsional dalam sistem buatan dan menghubungkan organisasi ini dengan fungsi kortikal manusia dan perilaku kognitif.