AdamW sirve como el optimizador estándar para entrenar modelos de lenguaje grandes, sin embargo, su fundamento teórico permanece en gran medida confinado a regímenes de varianza finita. Esta brecha es significativa porque la evidencia empírica sugiere que el ruido del gradiente estocástico durante el preentrenamiento de LLM típicamente exhibe características de cola pesada. Estudios recientes han demostrado que optimizadores basados en signo como Lion y Muon logran tasas de convergencia agudas bajo condiciones de cola pesada, mientras que AdaGrad también converge en este entorno. Sin embargo, la teoría rigurosa de convergencia para AdamW aún no se ha establecido dentro de estas suposiciones de cola pesada. Los autores plantean un problema abierto sobre si AdamW puede converger bajo las mismas suposiciones de cola pesada o si su acumulador de segundo momento crea una obstrucción genuina. Para abordar esto, formulan un punto de referencia positivo con métrica ponderada y proporcionan un mecanismo de cota inferior de corredor. Este mecanismo ilustra cómo la memoria del denominador en AdamW puede ocultar efectivamente grandes gradientes, impactando potencialmente su rendimiento.