يقترح المؤلفون Review Residuals، وهي آلية تضرب تحديث كل طبقة فرعية ببوابة تعتمد على المدخلات وتُعلم، مشروطة بالحالة الحالية والتحديث المقترح. تهدف هذه النهج إلى تقييم موثوقية التحديث قبل الالتزام به، مما يعالج قيود الاتصالات المتبقية القياسية التي تضيف التحديثات دائمًا بمعامل ثابت.
- تستخدم دالة البوابة السيني (sigmoid) للأوزان المطبقة على RMSNorm لكل من الحالة المخفية السابقة والتحديث المقترح.
- يسبب شكل البوثة المحدب (على طريقة Highway) تلاشي التدرجات بعد حوالي 20 طبقة، بينما يتدرب الشكل الجمعي بشكل مستقر عند جميع الأعماق المختبرة.
- لم تُظهر النماذج المدربة من الصفر عبر خمسة أحجام (60M-1B معلمة) أي ميزة على المقاييس الصغيرة.
- عند 590M معلمة، تفوق Review Residuals بشكل كبير بوابات Highway المطابقة في المعلمات والبقايا القياسية (p<0.05).
- تزداد فائدة الأداء مع حجم النموذج، مما يظهر ميزة أكبر عند مقياس 1B.
يعتقد المؤلفون أن هذا مهم لأنه يوفر تحسينًا مستقرًا وقابلًا للتوسع على الاتصالات المتبقية القياسية الذي يظهر فقط عند مقاييس النماذج الأكبر.