Las leyes de escalado suaves ocultan el aprendizaje paso a paso de tokens
Este estudio presenta un marco a nivel de token que descompone las leyes de escalado de modelos de lenguaje en eventos de aprendizaje localizados de tokens contextualizados individuales, desafiando la visión de que la dificultad del patrón de cola pesada es la única causa.