В данной статье рассматривается отсутствие строгой теории сходимости для оптимизатора AdamW в режимах с тяжёлохвостым шумом стохастического градиента, что часто встречается при предварительном обучении больших языковых моделей. Ставится вопрос о том, может ли AdamW сходиться в таких условиях или же его аккумулятор второго момента создаёт реальное препятствие.

  • Теоретические основы для AdamW в настоящее время ограничены режимами с конечной дисперсией, несмотря на эмпирические свидетельства наличия тяжёлохвостого шума в LLM.
  • Оптимизаторы, основанные на знаке, такие как Lion и Muon, достигли точных скоростей сходимости при тяжёлохвостых предположениях, аналогично AdaGrad.
  • Авторы формулируют эффективность AdamW при тяжёлохвостом шуме как открытую проблему.
  • Доказано положительное взвешенное метрическое benchmark для установления базового уровня производительности.
  • Предоставлен механизм нижней границы коридора, демонстрирующий, как память знаменателя может маскировать большие градиенты.

Эта работа подчеркивает разрыв между эмпирическим успехом и теоретическим пониманием, стремясь определить, ограничивает ли дизайн AdamW его устойчивость к тяжёлохвостым распределениям градиентов.