Открытая проблема: Эффективен ли AdamW при тяжелохвостом шуме?
AdamW является стандартным оптимизатором для обучения больших языковых моделей, однако его теоретическая база в значительной степени ограничена режимами с конечной дисперсией. Этот пробел существенен, поскольку эмпирические данные свидетельствуют о том, что шум стохастического градиента при предварительном обучении LLM обычно обладает тяжелохвостыми характеристиками. Недавние исследования показали, что оптимизаторы, основанные на знаке, такие как Lion и Muon, достигают острых скоростей сходимости в условиях тяжелого хвоста, а также что AdaGrad сходится в этой постановке. Однако строгая теория сходимости для AdamW еще не была установлена в рамках этих предположений о тяжелом хвосте. Авторы формулируют открытую проблему относительно того, может ли AdamW сходиться при тех же предположениях о тяжелом хвосте или же его аккумулятор второго момента создает реальное препятствие. Для решения этой задачи они разрабатывают положительный взвешенный метрический бенчмарк и предлагают механизм нижней границы коридора. Этот механизм демонстрирует, как память знаменателя в AdamW может эффективно скрывать большие градиенты, потенциально влияя на его производительность.