Karya ini menyelidiki inversi model bahasa decoder-only dengan memulihkan urutan token input asli dari keadaan tersembunyi lapisan terakhirnya melalui optimasi ruang embedding kontinu.

  • Metode ini menggunakan proksi lunak dalam ruang kontinu, hanya mengkomit token di akhir loop internal untuk mengekspos sinyal internal seperti trajektori peringkat dan kurva kerugian.
  • Analisis menunjukkan asimetri kategorikal yang tajam di mana kata fungsi berawakan ruang menyebabkan kegagalan, sementara token pembawa konten dipulihkan hampir sempurna.
  • Pada prompt C4 10-token, tingkat kecocokan tepat meningkat dari 66,9% menjadi 97,5% saat jendela kandidat melebar, menunjukkan bahwa sebagian besar kesalahan adalah upaya dekat yang dapat dipulihkan.
  • Formulasi kontinu membuat optimasi dapat diamati dan kegagalan terdeteksi, tidak seperti metode proyeksi keras per-langkah yang lebih cepat seperti SIPIT.

Hasilnya menunjukkan bahwa keadaan tersembunyi lapisan terakhir GPT-2 sangat sensitif terhadap teks input, memungkinkan pemulihan urutan asli secara efektif.