Optimizador Muon: Potencia, Límites y una Teoría del Valle Fluvial

Una nueva teoría a nivel de trayectoria revela que Muon acelera al inicio de la optimización en la dirección del río portadora de información, pero converge lentamente cerca del fondo, a diferencia del descenso por gradiente. Con momento, las actualizaciones ortogonalizadas de Muon eliminan la información de escala residual, lo que lleva a sobrepasar y oscilar. El estudio aboga por un enfoque de dos etapas: usar Muon al principio y cambiar a optimizadores similares al descenso por gradiente más adelante, para mejorar el rendimiento del entrenamiento de LLM.