Studi mengungkapkan keadaan tersembunyi model bahasa decoder-only memungkinkan pemulihan input

Karya ini menyelidiki inversi model bahasa decoder-only dengan memulihkan urutan token input asli dari keadaan tersembunyi lapisan terakhirnya melalui optimasi ruang embedding kontinu.

Metode ini menggunakan proksi lunak dalam ruang kontinu, hanya mengkomit token di akhir loop internal untuk mengekspos sinyal internal seperti trajektori peringkat dan kurva kerugian.
Analisis menunjukkan asimetri kategorikal yang tajam di mana kata fungsi berawakan ruang menyebabkan kegagalan, sementara token pembawa konten dipulihkan hampir sempurna.
Pada prompt C4 10-token, tingkat kecocokan tepat meningkat dari 66,9% menjadi 97,5% saat jendela kandidat melebar, menunjukkan bahwa sebagian besar kesalahan adalah upaya dekat yang dapat dipulihkan.
Formulasi kontinu membuat optimasi dapat diamati dan kegagalan terdeteksi, tidak seperti metode proyeksi keras per-langkah yang lebih cepat seperti SIPIT.

Hasilnya menunjukkan bahwa keadaan tersembunyi lapisan terakhir GPT-2 sangat sensitif terhadap teks input, memungkinkan pemulihan urutan asli secara efektif.