يقترح الباحثون فرضية فصل توقع الحالة، بحجة أن فك تشابك توقع الرمز التالي عن تخزين الحالة يؤدي إلى أداء أفضل لنمذجة اللغة. صمموا متغيرًا من المحوّل يستخدم تيارين للحوسبة لفصل هذه الوظائف وأجروا تجارب ما قبل التدريب عبر مقاييس مختلفة.
- يوفر الهيكل المقترح باستمرار كفاءة أفضل في البيانات والحوسبة مقارنةً بالمحوّلات القياسية.
- يحسّن فقدان التحقق أثناء ما قبل التدريب.
- يتفوق على المحوّلات القياسية بنسبة 2--3 نقاط مئوية في المتوسط على المهام اللاحقة.
- تستبعد التحليلات التجريبية العوامل المربكة وتُظهر فروقًا أساسية في التدرجات الناتجة عن هذا التصميم.
يعتبر المؤلفون ذلك ذا أهمية لأنه يوفر طريقة لتعزيز أداء النموذج من خلال الفصل المعماري لأدوار الحوسبة.