Les auteurs proposent Review Residuals, un mécanisme qui met à l'échelle la mise à jour de chaque sous-couche à l'aide d'un apprenti, dépendant de l'entrée et conditionné par l'état actuel et la mise à jour proposée. Cette approche vise à évaluer la fiabilité de la mise à jour avant de la valider, répondant ainsi à la limitation des connexions résiduelles standard qui ajoutent toujours les mises à jour avec un coefficient fixe.

  • La fonction de conditionnement utilise le sigmoïde des poids appliqués à la RMSNorm de l'état caché précédent et de la mise à jour proposée.
  • Une forme de conditionnement convexe (style Highway) provoque une disparition des gradients au-delà d'environ 20 couches, tandis que la forme additive s'entraîne de manière stable à toutes les profondeurs testées.
  • Les modèles entraînés从零起 sur cinq tailles (60M-1B paramètres) ne montrent aucun avantage aux petites échelles.
  • À 590M paramètres, Review Residuals surpassent significativement les conditionnements Highway appariés en paramètres et les résidus standard (p<0.05).
  • L'avantage de performance augmente avec la taille du modèle, montrant un avantage plus important à l'échelle de 1B.

Les auteurs considèrent cela comme significatif car il fournit une amélioration stable et évolutive par rapport aux connexions résiduelles standard qui n'émerge qu'aux échelles de modèles plus grandes.