Primer análisis de tiempo finito de Adam clásico para optimización no convexa no suave

Este estudio presenta el primer análisis de convergencia en tiempo finito para el optimizador Adam clásico, abordando específicamente su comportamiento en configuraciones de optimización no convexa no suave. Investigaciones anteriores ignoraron en gran medida el término de corrección de sesgo de Adam o requirieron modificaciones algorítmicas adicionales como el recorte, dejando las garantías del método original poco claras. Los autores utilizan el marco de Conversión de Online a Noconvexo para demostrar que una tasa de aprendizaje escalada aleatoriamente garantiza una tasa de convergencia de $1/T^{ rac{2}{13}}$. Este resultado teórico es significativo porque se aplica al régimen moderno de ruido de cola pesada, que refleja más de cerca las condiciones prácticas de entrenamiento. Además, el análisis establece la convergencia bajo la elección de parámetros donde $β_1=β_2$, alineándose con observaciones empíricas recientes. Estos hallazgos proporcionan una explicación rigurosa de la efectividad de Adam en escenarios del mundo real que anteriormente no fueron adecuadamente capturados por las teorías de optimización suave.