Muown неявно выполняет затухание углового шага

В статье показано, что направленное обновление Muown эквивалентно римановскому шагу по нормализованным направлениям, при этом величина ненормализованной параметризации модулирует угловой шаг. Это понимание объясняет стабильность размера шага Muown и мотивирует разработку AngularMuown, которая оптимизирует напрямую по нормализованным направлениям с явным, настраиваемым по расписанию угловым множителем.

AngularMuown разделяет угловой множитель и обновление радиальной величины для прямой оптимизации по нормализованным направлениям.
Метод улучшает производительность Muown и занимает первое место в категории оптимизаторов на соревновании по скоростному прохождению модифицированного nanoGPT.
Эксперименты на моделях Qwen2-0.5B и 1.1B с параметрами mixture-of-experts подтверждают, что алгоритм масштабируется за пределы небольших моделей.

AngularMuown обеспечивает более явный контроль над размерами угловых шагов, предлагая улучшенную стабильность оптимизации и производительность при предобучении Трансформеров.