Review Residuals вводит условное по обновлению затворирование для Transformer

Авторы предлагают Review Residuals, механизм, который масштабирует обновление каждого подслоя с помощью обучаемого, зависящего от входа затвора, обусловленного как текущим состоянием, так и предлагаемым обновлением. Этот подход направлен на оценку надежности обновления перед его применением, устраняя ограничение стандартных остаточных связей, которые всегда добавляют обновления с фиксированным коэффициентом.

Функция затвора использует сигмоиду весов, примененных к RMSNorm предыдущего скрытого состояния и предлагаемого обновления.
Выпуклая (высокоскоростная) форма затвора вызывает исчезновение градиентов за пределами ~20 слоев, в то время как аддитивная форма стабильно обучается на всех протестированных глубинах.
Модели, обученные с нуля в пяти размерах (60M-1B параметров), не показывают преимуществ на малых масштабах.
При 590M параметров Review Residuals значительно превосходят Highway gates и стандартные остаточные связи, сопоставленные по параметрам (p<0.05).
Преимущество в производительности увеличивается с размером модели, демонстрируя большее преимущество на масштабе 1B.

Авторы считают это значительным, поскольку оно обеспечивает стабильное, масштабируемое улучшение над стандартными остаточными связями, которое проявляется только на больших масштабах моделей.