Proyek penelitian independen ini mengkarakterisasi dinamika internal dari tujuh model bahasa berukuran kecil dan menengah dengan menganalisis bagaimana representasi tersembunyi berevolusi selama inferensi, alih-alih mengandalkan benchmark output standar. Studi ini menyelidiki perilaku dinamis, organisasi fungsional, dan geometri representasi untuk mengidentifikasi pola yang dapat direproduksi di berbagai arsitektur.
- Analisis mencakup GPT-2, DistilGPT2, OPT-125M, Qwen2.5-0.5B-Instruct, TinyLlama-1.1B-Chat, Phi-1.5, dan Llama-3.2-1B.
- Model-model secara konsisten terpisah menjadi dua kluster: GPT-2 dan DistilGPT2 membentuk satu kelompok, sementara lima model lainnya membentuk kelompok lain meskipun terdapat perbedaan arsitektur.
- Informasi fungsional dapat didekode secara linear dari representasi tersembunyi, dengan kapasitas fungsional yang bervariasi di setiap lapisan yang tidak sejajar pada kedalaman absolut yang sama.
- Rotasi ortogonal hampir sepenuhnya mempertahankan kemampuan dekoding, menunjukkan bahwa sinyal fungsional bergantung pada geometri ruang representasi daripada dimensi embedding tertentu.
Penelitian ini bertujuan untuk bergerak dari observasi ke pengujian kausal guna menentukan apakah mengganggu wilayah fungsional tertentu mengubah perilaku downstream dan bagaimana prinsip-prinsip organisasi ini diskalakan seiring dengan ukuran model.