Para penulis mengusulkan Review Residuals, sebuah mekanisme yang menskalakan pembaruan setiap sublayer dengan gerbang bergantung-input yang dipelajari dan bersyarat pada keadaan saat ini serta pembaruan yang diusulkan. Pendekatan ini bertujuan untuk mengevaluasi keandalan pembaruan sebelum mengajukannya, mengatasi keterbatasan koneksi residual standar yang selalu menambahkan pembaruan dengan koefisien tetap.

  • Fungsi gating menggunakan sigmoid dari bobot yang diterapkan pada RMSNorm dari keadaan tersembunyi sebelumnya dan pembaruan yang diusulkan.
  • Bentuk gerbang cembung (gaya Highway) menyebabkan hilangnya gradien di luar ~20 lapisan, sedangkan bentuk aditif melatih secara stabil pada semua kedalaman yang diuji.
  • Model yang dilatih dari awal di lima ukuran (60M-1B parameter) tidak menunjukkan keunggulan pada skala kecil.
  • Pada 590M parameter, Review Residuals secara signifikan mengungguli gerbang Highway yang cocok parameternya dan residual standar (p<0.05).
  • Manfaat kinerja meningkat seiring ukuran model, menunjukkan keunggulan yang lebih besar pada skala 1B.

Para penulis menganggap ini signifikan karena memberikan peningkatan yang stabil dan dapat diskalakan dibandingkan koneksi residual standar yang hanya muncul pada skala model yang lebih besar.