Los autores proponen Review Residuals, un mecanismo que escala la actualización de cada subcapa mediante una puerta aprendida y dependiente de la entrada, condicionada tanto al estado actual como a la actualización propuesta. Este enfoque busca evaluar la fiabilidad de la actualización antes de comprometerla, abordando la limitación de las conexiones residuales estándar que siempre añaden actualizaciones con un coeficiente fijo.
- La función de gating utiliza la sigmoide de pesos aplicados a RMSNorm del estado oculto previo y la actualización propuesta.
- Una forma de puerta convexa (estilo Highway) causa gradientes que se desvanecen más allá de ~20 capas, mientras que la forma aditiva entrena de manera estable en todas las profundidades probadas.
- Los modelos entrenados desde cero en cinco tamaños (60M-1B parámetros) no muestran ventaja a escalas pequeñas.
- Con 590M parámetros, Review Residuals superan significativamente a las puertas Highway y residuos estándar emparejados por parámetros (p<0.05).
- El beneficio de rendimiento aumenta con el tamaño del modelo, mostrando una ventaja mayor en la escala de 1B.
Los autores consideran esto significativo porque proporciona una mejora estable y escalable sobre las conexiones residuales estándar que emerge solo a mayores escalas de modelos.