Плавные законы масштабирования скрывают пошаговое обучение токенов

В данном исследовании представлена фреймворк на уровне токенов, который разлагает законы масштабирования языковых моделей на локализованные события обучения отдельных контекстуализированных токенов, оспаривая точку зрения, что сложность паттернов с тяжелым хвостом является единственной причиной.

Авторы подгоняют траектории потерь токенов сигмоидами, чтобы показать, что обучение сосредоточено в локализованных переходах, создавая спектр времени обучения, который доминирует над формой закона масштабирования.
Более чем в 100 запусках предварительного обучения на больших корпусах с моделями до 6B параметров и 300B токенов этот спектр количественно реконструирует производную потерь валидации вдоль осей шага обучения, масштаба данных и масштаба модели.
Изменение распределения обучения на основе того, когда токены становятся обучаемыми, меняет траекторию оптимизации, обеспечивая ускорение снижения потерь валидации на 11%.

Эти результаты предоставляют прямые эмпирические доказательства того, что законы масштабирования управляются распределением времен обучения на уровне токенов, демонстрируя, что это распределение может быть использовано для объяснения поведения масштабирования и улучшения производительности обучения.