Оптимизатор Мюон: Сила, пределы и теория речной долины

Новая теория на уровне траектории показывает, что Мюон ускоряется на ранних этапах оптимизации в направлении речной долины, несущей информацию, но медленно сходится вблизи дна, в отличие от градиентного спуска. При наличии импульса ортогонализованные обновления Мюон удаляют остаточную информацию масштаба, что приводит к перескокам и колебаниям. В исследовании предлагается двухэтапный подход — использование Мюон на ранних этапах и переход к оптимизаторам, похожим на градиентный спуск, на поздних этапах — для улучшения производительности обучения больших языковых моделей.