Плавные законы масштабирования скрывают пошаговое обучение токенов
В данном исследовании представлена фреймворк на уровне токенов, который разлагает законы масштабирования языковых моделей на локализованные события обучения отдельных контекстуализированных токенов, оспаривая точку зрения, что сложность паттернов с тяжелым хвостом является единственной причиной.