Este estudio presenta un marco a nivel de token que descompone las leyes de escalado de modelos de lenguaje en eventos de aprendizaje localizados de tokens contextualizados individuales, desafiando la visión de que la dificultad del patrón de cola pesada es la única causa.

  • Los autores ajustan trayectorias de pérdida de tokens con sigmoideas para mostrar que el aprendizaje se concentra en transiciones localizadas, creando un espectro de tiempo de aprendizaje que domina la forma de la ley de escalado.
  • En más de 100 ejecuciones de preentrenamiento en grandes corpus con modelos de hasta 6B parámetros y 300B tokens, este espectro reconstruye cuantitativamente la derivada de la pérdida de validación a lo largo del eje de pasos de entrenamiento, escala de datos y escala de modelo.
  • Redistribuir la distribución de entrenamiento basándose en cuándo los tokens se vuelven aprendibles altera la trayectoria de optimización, logrando una reducción un 11% más rápida en la pérdida de validación.

Estos resultados proporcionan evidencia empírica directa de que las leyes de escalado están gobernadas por la distribución de tiempos de aprendizaje a nivel de token, demostrando que esta distribución puede usarse para explicar el comportamiento de escalado y mejorar el rendimiento del entrenamiento.