MGUP: Alineación de Gradiente-Momento para Optimización Selectiva
MGUP introduce un mecanismo de actualización selectiva que aplica tamaños de paso más grandes a una proporción fija de parámetros en la optimización estocástica, mientras usa tamaños de paso más pequeños y no nulos para el resto. Se integra sin problemas con optimizadores como AdamW, Lion y Muon, proporcionando garantías teóricas de convergencia para MGUP-AdamW y demostrando un rendimiento superior o más estable en el entrenamiento de modelos de lenguaje grandes y tareas de preentrenamiento MAE.