В данном исследовании представлен первый анализ сходимости за конечное время для классического оптимизатора Adam, конкретно рассматривающий его поведение в условиях негладкой невыпуклой оптимизации. Предыдущие исследования либо игнорировали член коррекции смещения Adam, либо требовали дополнительных модификаций алгоритма, таких как обрезка (clipping), оставляя гарантии оригинального метода неясными. Авторы используют框架 преобразования Online-to-Nonconvex для доказательства того, что случайным образом масштабированный темп обучения обеспечивает скорость сходимости $1/T^{\frac{2}{13}}$. Этот теоретический результат имеет важное значение, поскольку он применим к современному режиму тяжелых хвостов шума, который более точно отражает практические условия обучения. Кроме того, анализ устанавливает сходимость при выборе параметров, где $β_1=β_2$, что согласуется с недавними эмпирическими наблюдениями. Эти результаты дают строгое объяснение эффективности Adam в реальных сценариях, которые ранее адекватно не описывались теориями гладкой оптимизации.
Первый анализ конечного времени для классического Adam в негладкой невыпуклой оптимизации
Переведено с English → Русский