Memahami Model Bahasa Besar: Kemampuan Emergen dan Debat Kognisi

Bab ini menguraikan pemahaman saat ini tentang Model Bahasa Besar (LLMs) dengan memeriksa mekanisme mereka, kemampuan emergen, dan debat seputar hubungan mereka dengan kognisi manusia. Bab ini menekankan bagaimana mekanisme perhatian pada arsitektur Transformer memungkinkan LLMs berfungsi sebagai model umum yang dilatih pada dataset masif.

Teks ini meninjau bukti bahwa LLMs menunjukkan kemampuan emergen yang menyerupai kognisi manusia, seperti penalaran simbolik, teori pikiran, dan strategi penipuan.
Studi-studi menyoroti baik kasus sukses dalam menyelesaikan tugas kompleks maupun kasus gagal yang mengungkap perbedaan antara kognisi manusia dan LLMs.
Pendekatan AI yang dapat dijelaskan dibahas, termasuk analisis aktivasi neuron dan pelacakan sirkuit.
Para penulis berargumen melawan pandangan reduksionis sederhana yang mengaitkan perilaku LLM semata-mata pada hafalan pola, dengan menganjurkan diskusi yang lebih bernuansa tentang kognisi AI.

Para penulis berpendapat bahwa menolak pemahaman LLM berdasarkan tujuan pelatihan yang sederhana berasal dari kesalahpahaman tentang proses optimisasi. Mereka mengusulkan perspektif seimbang yang mengakui perbedaan antara manusia dan LLMs sambil memungkinkan kemungkinan kognisi AI yang nyata.