Hyperball es un envoltorio de optimizador simple que establece normas de Frobenius fijas para las matrices de pesos y sus actualizaciones. Mejora la velocidad de entrenamiento y la transferencia de la tasa de aprendizaje en modelos grandes, logrando una aceleración equivalente a tokens del 20--30% sobre las líneas base de weight decay en modelos de hasta 1.2B parámetros.
Optimización Hyperball para un entrenamiento más rápido de modelos de lenguaje
Traducido del English → Español