저자들은 현재 상태와 제안된 업데이트 모두에 조건화된 학습 가능한 입력 의존 게이트를 통해 각 하위 레이어의 업데이트를 스케일링하는 메커니즘인 Review Residuals를 제안합니다. 이 접근 방식은 고정 계수로 항상 업데이트를 추가하는 표준 잔차 연결의 한계를 해결하고, 커밋하기 전에 업데이트 신뢰성을 평가하는 것을 목표로 합니다.
- 게이트 함수는 이전 은닉 상태와 제안된 업데이트 모두의 RMSNorm에 적용된 가중치의 시그모이드를 사용합니다.
- 볼록(Highway 스타일) 게이트 형태는 약 20층 이후로 기울기 소실을 유발하는 반면, 가산 형태는 테스트된 모든 깊이에서 안정적으로 훈련됩니다.
- 5가지 크기(60M-1B 파라미터)로 처음부터 훈련된 모델은 작은 규모에서 이점을 보이지 않았습니다.
- 590M 파라미터에서 Review Residuals는 매칭된 Highway 게이트와 표준 잔차 연결을 유의미하게(outperform) 초과했습니다(p<0.05).
- 성능 이점은 모델 크기가 커짐에 따라 증가하며, 1B 규모에서 더 큰 이점을 보입니다.
저자들은 이것이 표준 잔차 연결에 대해 안정적이고 확장 가능한 개선을 제공하며 이는 더 큰 모델 규모에서만 나타난다고 보기 때문에 이를 중요하게 생각합니다.