دراسة تكشف أن الحالات المخفية لنماذج اللغة ذات المفسر فقط تسمح باستعادة الإدخال

تتحقق هذه الدراسة من عكس نماذج اللغة ذات المفسر فقط من خلال استعادة تسلسلات الرموز الأصلية للإدخال من حالاتها المخفية في الطبقة الأخيرة عبر تحسين مستمر في فضاء التضمين.

تستخدم الطريقة وسيطًا ناعمًا في الفضاء المستمر، وتلتزم بالرموز فقط في نهاية الحلقة الداخلية لكشف الإشارات الداخلية مثل مسارات الرتبة ومنحنيات الخسارة.
يُظهر التحليل عدم تناظر فئوي حاد حيث تسبب الكلمات الوظيفية ذات السوابق المكانية فشلًا، بينما استُعيدت الرموز الحاملة للمحتوى بشكل شبه مثالي.
على نصوص C4 المكونة من 10 رموز، ترتفع معدلات التطابق الدقيق من 66.9% إلى 97.5% مع اتساع نافذة المرشحين، مما يشير إلى أن معظم الأخطاء هي أخطاء قريبة يمكن استعادتها.
يجعل الصياغة المستمرة التحسين قابلًا للملاحظة والأخطاء قابلة للكشف، على عكس طرق الإسقاط الصلبة السريعة لكل خطوة مثل SIPIT.

تُظهر النتائج أن الحالات المخفية في الطبقة الأخيرة لـ GPT-2 حساسة جدًا لنص الإدخال، مما يسمح باستعادة التسلسل الأصلي بفعالية.