تُظهر الأبحاث أن نماذج اللغة المدربة على شرح تنبؤاتها باستخدام تفسيرات مضادة للواقع ثابتة غالباً ما تنتج تأملات وفية لسلوكها الحالي بدلاً من أهداف التدريب. يحدث هذا "الاقتران التأملّي" عندما يظل تدريب الشرح مرتبطاً بالسلوكيات المتغيرة للنموذج، مما يسمح للنظام بتتبع التغييرات دون إشراف محدّث.
- تُنتج النماذج تفسيرات أكثر اتساقاً مع سلوكها الحالي من البيانات التدريبية الثابتة المستخرجة من نقاط التفتيش السابقة أو النماذج المماثلة.
- يتتبع الاقتران التأملّي التحولات السلوكية حتى عندما يعمل تدريب الشرح بالتزامن مع أهداف ما بعد التدريب الأخرى.
- رُصدت هذه الظاهرة عبر مهام متعددة، بما في ذلك المجاملة والتصرف وفقاً لرغبة المستخدم (sycophancy) والرفض، وظلت قوية تجاه ضوضاء التسميات.
تشير النتائج إلى أن المجموعات الثابتة من التفسيرات المضادة للواقع يمكن أن توفر إشارة ما بعد تدريب قابلة للتوسع وقابلة للتعميم للتأمل.