Открытая проблема: Эффективен ли AdamW при тяжёлохвостом шуме?

В данной статье рассматривается отсутствие строгой теории сходимости для оптимизатора AdamW в режимах с тяжёлохвостым шумом стохастического градиента, что часто встречается при предварительном обучении больших языковых моделей. Ставится вопрос о том, может ли AdamW сходиться в таких условиях или же его аккумулятор второго момента создаёт реальное препятствие.

Теоретические основы для AdamW в настоящее время ограничены режимами с конечной дисперсией, несмотря на эмпирические свидетельства наличия тяжёлохвостого шума в LLM.
Оптимизаторы, основанные на знаке, такие как Lion и Muon, достигли точных скоростей сходимости при тяжёлохвостых предположениях, аналогично AdaGrad.
Авторы формулируют эффективность AdamW при тяжёлохвостом шуме как открытую проблему.
Доказано положительное взвешенное метрическое benchmark для установления базового уровня производительности.
Предоставлен механизм нижней границы коридора, демонстрирующий, как память знаменателя может маскировать большие градиенты.

Эта работа подчеркивает разрыв между эмпирическим успехом и теоретическим пониманием, стремясь определить, ограничивает ли дизайн AdamW его устойчивость к тяжёлохвостым распределениям градиентов.