Este artículo aborda la falta de una teoría rigurosa de convergencia para el optimizador AdamW en regímenes con ruido estocástico de gradiente pesado de cola, común en el preentrenamiento de grandes modelos de lenguaje. Cuestiona si AdamW puede converger bajo estas condiciones o si su acumulador de segundo momento crea una obstrucción genuina.

  • Las bases teóricas para AdamW están actualmente limitadas a regímenes de varianza finita, a pesar de la evidencia empírica de ruido de cola pesada en LLMs.
  • Los optimizadores basados en signo como Lion y Muon han logrado tasas de convergencia agudas bajo supuestos de cola pesada, al igual que AdaGrad.
  • Los autores formulan la efectividad de AdamW bajo ruido de cola pesada como un problema abierto.
  • Se demuestra una métrica ponderada positiva para establecer una línea base de rendimiento.
  • Se proporciona un mecanismo de cota inferior de corredor para demostrar cómo la memoria del denominador puede oscurecer grandes gradientes.

Este trabajo destaca la brecha entre el éxito empírico y la comprensión teórica, con el objetivo de determinar si el diseño de AdamW limita inherentemente su robustez frente a distribuciones de gradiente de cola pesada.