Сужающиеся языковые модели: улучшение производительности за счёт распределения ёмкости с учётом глубины

В статье представлены Сужающиеся языковые модели (TLMs), архитектурный принцип, который выделяет большую часть параметрической ёмкости ранним слоям и меньшую — поздним в рамках фиксированного бюджета. Этот подход бросает вызов стандартной практике равномерной ширины слоёв, опираясь на данные о том, что поздние слои в основном уточняют остаточный поток (residual stream), а не преобразуют его.

Эксперименты показывают, что сужение ширины MLP по гладкому косинусному расписанию улучшает перплексивность и результаты на downstream-бенчмарках для трёх масштабов моделей и четырёх архитектур (Transformer, Gated Attention, Hope-attention и Titans).
Выделение большей ёмкости ранним слоям даёт лучшие результаты, тогда как обратное распределение ухудшает производительность по сравнению с базовыми вариантами с равномерной шириной.
Метод обеспечивает эти улучшения без дополнительных затрат параметров или вычислений, утверждая распределение ёмкости с учётом глубины как архитектуру-агностичный рычаг проектирования.

Эти выводы указывают на то, что сужение является простым и эффективным методом оптимизации дизайна языковых моделей, повышающим эффективность без увеличения требований к ресурсам.