El artículo demuestra que la actualización direccional de Muown es equivalente a un paso riemanniano en direcciones normalizadas, donde la magnitud de la parametrización no normalizada modula el tamaño del paso angular. Esta comprensión explica la estabilidad del tamaño de paso de Muown y motiva el desarrollo de AngularMuown, que optimiza directamente sobre direcciones normalizadas con un multiplicador angular explícito y programable.
- AngularMuown desacopla el multiplicador angular de la actualización de magnitud radial para optimizar directamente sobre direcciones normalizadas.
- El método mejora el rendimiento de Muown y lidera la categoría por optimizador en la competición de speedrunning de modded nanoGPT.
- Los experimentos en modelos mixture-of-experts Qwen2-0.5B y 1.1B confirman que el algoritmo escala más allá de los modelos pequeños.
AngularMuown proporciona un control más explícito sobre los tamaños de paso angular, ofreciendo una mayor estabilidad y rendimiento de optimización para el preentrenamiento de Transformers.