Seorang peneliti independen menganalisis evolusi representasi tersembunyi selama inferensi pada tujuh model open-weight, termasuk GPT-2, OPT-125M, dan Llama-3.2-1B, untuk mengidentifikasi rezim dinamis internal di luar benchmark output standar.

  • Trajektori keadaan tersembunyi menunjukkan keadaan proksi fungsional yang dapat direproduksi seperti pemrosesan mirip sintaksis dan perilaku mirip keputusan yang memungkinkan pengelompokan berdasarkan dinamika internal daripada jumlah parameter.
  • Probe linier mendekode kategori fungsional dari representasi tersembunyi dengan akurasi tinggi, meskipun kinerja ini runtuh di bawah permutasi label, input Gaussian acak, atau permutasi fitur.
  • Rotasi ortogonal ruang tersembunyi mempertahankan kinerja dekoding, menunjukkan informasi dikodekan dalam geometri relatif representasi daripada neuron atau dimensi individu.
  • Tanda tangan fungsional muncul pada lapisan absolut yang bervariasi di seluruh arsitektur, menunjukkan komputasi diatur sebagai rezim fungsional yang berevolusi daripada lapisan sintaksis atau semantik tetap.

Penulis mencari umpan balik kritis dari para ahli dalam interpretabilitas mekanistik dan pembelajaran representasi untuk memvalidasi pengamatan empiris ini dan menentukan eksperimen kontrol yang diperlukan.