Сужающиеся языковые модели: повышение производительности за счёт распределения ёмкости с учётом глубины

Современные языковые модели обычно распределяют параметры равномерно по идентичным слоям, несмотря на доказательства того, что последующие слои в основном уточняют остаточный поток (residual stream), а не преобразуют его. Чтобы устранить эту асимметрию, исследователи изучили вопрос о том, должна ли параметрическая ёмкость варьироваться в зависимости от глубины при фиксированном бюджете. Контролируемые эксперименты показали, что распределение большей части ёмкости на ранние слои и меньшей — на поздние улучшает перплексность по сравнению с базовыми вариантами с равномерным распределением, тогда как обратное распределение ухудшает производительность. Опираясь на эти результаты, авторы представляют Сужающиеся языковые модели (TLMs), архитектурный принцип, согласно которому компоненты, содержащие параметры, монотонно сужаются по глубине. Многослойные персептроны (MLP) служат основным местом для этой реализации из-за их доминирования в количестве параметров и чёткой оси ширины. В исследовании тестировалось сужение с помощью плавного косинусного графика на трёх масштабах моделей и четырёх архитектурах, включая Transformer, Gated Attention, Hope-attention и Titans. Результаты показывают, что TLMs последовательно улучшают перплексность и результаты в downstream-бенчмарках по сравнению с базовыми вариантами с равномерным распределением без дополнительных вычислительных затрат. Эти выводы устанавливают распределение ёмкости с учётом глубины как простой, не зависящий от архитектуры рычаг