Авторы предлагают Review Residuals, механизм, который масштабирует обновление каждого подслоя с помощью обучаемого, зависящего от входа затвора, обусловленного как текущим состоянием, так и предлагаемым обновлением. Этот подход направлен на оценку надежности обновления перед его применением, устраняя ограничение стандартных остаточных связей, которые всегда добавляют обновления с фиксированным коэффициентом.

  • Функция затвора использует сигмоиду весов, примененных к RMSNorm предыдущего скрытого состояния и предлагаемого обновления.
  • Выпуклая (высокоскоростная) форма затвора вызывает исчезновение градиентов за пределами ~20 слоев, в то время как аддитивная форма стабильно обучается на всех протестированных глубинах.
  • Модели, обученные с нуля в пяти размерах (60M-1B параметров), не показывают преимуществ на малых масштабах.
  • При 590M параметров Review Residuals значительно превосходят Highway gates и стандартные остаточные связи, сопоставленные по параметрам (p<0.05).
  • Преимущество в производительности увеличивается с размером модели, демонстрируя большее преимущество на масштабе 1B.

Авторы считают это значительным, поскольку оно обеспечивает стабильное, масштабируемое улучшение над стандартными остаточными связями, которое проявляется только на больших масштабах моделей.