Os autores propõem o Review Residuals, um mecanismo que escala a atualização de cada subcamada por meio de um gate aprendido e dependente da entrada, condicionado tanto ao estado atual quanto à atualização proposta. Esta abordagem visa avaliar a confiabilidade da atualização antes de comprometê-la, abordando a limitação das conexões residuais padrão que sempre adicionam atualizações com um coeficiente fixo.
- A função de gating usa a sigmoide dos pesos aplicados à RMSNorm do estado oculto anterior e da atualização proposta.
- Uma forma de gate convexa (estilo Highway) causa gradientes que desaparecem além de ~20 camadas, enquanto a forma aditiva treina de forma estável em todas as profundidades testadas.
- Modelos treinados do zero em cinco tamanhos (60M-1B parâmetros) não mostram vantagem em escalas pequenas.
- Com 590M parâmetros, o Review Residuals supera significativamente os gates Highway e resíduos padrão correspondidos por parâmetros (p<0.05).
- O benefício de desempenho aumenta com o tamanho do modelo, mostrando uma vantagem maior na escala de 1B.
Os autores consideram isso significativo porque fornece uma melhoria estável e escalável sobre as conexões residuais padrão que emerge apenas em maiores escalas de modelos.