В данной статье рассматривается отсутствие строгой теории сходимости для оптимизатора AdamW в режимах с тяжёлохвостым шумом стохастического градиента, что часто встречается при предварительном обучении больших языковых моделей. Ставится вопрос о том, может ли AdamW сходиться в таких условиях или же его аккумулятор второго момента создаёт реальное препятствие.
- Теоретические основы для AdamW в настоящее время ограничены режимами с конечной дисперсией, несмотря на эмпирические свидетельства наличия тяжёлохвостого шума в LLM.
- Оптимизаторы, основанные на знаке, такие как Lion и Muon, достигли точных скоростей сходимости при тяжёлохвостых предположениях, аналогично AdaGrad.
- Авторы формулируют эффективность AdamW при тяжёлохвостом шуме как открытую проблему.
- Доказано положительное взвешенное метрическое benchmark для установления базового уровня производительности.
- Предоставлен механизм нижней границы коридора, демонстрирующий, как память знаменателя может маскировать большие градиенты.
Эта работа подчеркивает разрыв между эмпирическим успехом и теоретическим пониманием, стремясь определить, ограничивает ли дизайн AdamW его устойчивость к тяжёлохвостым распределениям градиентов.