Problema abierto: ¿Es efectivo AdamW bajo ruido de cola pesada?
Este artículo aborda la falta de una teoría rigurosa de convergencia para el optimizador AdamW en regímenes con ruido estocástico de gradiente pesado de cola, común en el preentrenamiento de grandes modelos de lenguaje. Cuestiona si AdamW puede converger bajo estas condiciones o si su acumulador de segundo momento crea una obstrucción genuina.