Review Residuals introduce gating condicionado por actualización para Transformers

Los autores proponen Review Residuals, un mecanismo que escala la actualización de cada subcapa mediante una puerta aprendida y dependiente de la entrada, condicionada tanto al estado actual como a la actualización propuesta. Este enfoque busca evaluar la fiabilidad de la actualización antes de comprometerla, abordando la limitación de las conexiones residuales estándar que siempre añaden actualizaciones con un coeficiente fijo.

La función de gating utiliza la sigmoide de pesos aplicados a RMSNorm del estado oculto previo y la actualización propuesta.
Una forma de puerta convexa (estilo Highway) causa gradientes que se desvanecen más allá de ~20 capas, mientras que la forma aditiva entrena de manera estable en todas las profundidades probadas.
Los modelos entrenados desde cero en cinco tamaños (60M-1B parámetros) no muestran ventaja a escalas pequeñas.
Con 590M parámetros, Review Residuals superan significativamente a las puertas Highway y residuos estándar emparejados por parámetros (p<0.05).
El beneficio de rendimiento aumenta con el tamaño del modelo, mostrando una ventaja mayor en la escala de 1B.

Los autores consideran esto significativo porque proporciona una mejora estable y escalable sobre las conexiones residuales estándar que emerge solo a mayores escalas de modelos.