Muown realiza implícitamente la reducción del tamaño de paso angular

El artículo demuestra que la actualización direccional de Muown es equivalente a un paso riemanniano en direcciones normalizadas, donde la magnitud de la parametrización no normalizada modula el tamaño del paso angular. Esta comprensión explica la estabilidad del tamaño de paso de Muown y motiva el desarrollo de AngularMuown, que optimiza directamente sobre direcciones normalizadas con un multiplicador angular explícito y programable.

AngularMuown desacopla el multiplicador angular de la actualización de magnitud radial para optimizar directamente sobre direcciones normalizadas.
El método mejora el rendimiento de Muown y lidera la categoría por optimizador en la competición de speedrunning de modded nanoGPT.
Los experimentos en modelos mixture-of-experts Qwen2-0.5B y 1.1B confirman que el algoritmo escala más allá de los modelos pequeños.

AngularMuown proporciona un control más explícito sobre los tamaños de paso angular, ofreciendo una mayor estabilidad y rendimiento de optimización para el preentrenamiento de Transformers.