Сужающиеся языковые модели: улучшение производительности за счёт распределения ёмкости с учётом глубины
В статье представлены Сужающиеся языковые модели (TLMs), архитектурный принцип, который выделяет большую часть параметрической ёмкости ранним слоям и меньшую — поздним в рамках фиксированного бюджета. Этот подход бросает вызов стандартной практике равномерной ширины слоёв, опираясь на данные о том, что поздние слои в основном уточняют остаточный поток (residual stream), а не преобразуют его.