Масштабирование линейной связности режимов и слияния для предобученных трансформеров с миллиардом параметров

Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.

Метод применяет корректно параметризованные преобразования весов, сохраняющие функциональность, для выравнивания функционально эквивалентных решений.
Двойной процесс обучения позволяет обеим моделям совместно изучать соответствующие преобразования к общему пути линейной интерполяции.
Двунаправленная оптимизация существенно снижает барьеры интерполяции, обеспечивая надежное слияние в архитектурах крупного масштаба.
На WikiText для языковых моделей среднего размера достигаются барьеры потерь, близкие к нулю, что является первым доказательством линейной связности без барьеров на этом масштабе.
ViT-L сохраняет точность ImageNet top-1 выше 69% на всем пути интерполяции в области компьютерного зрения.
Современные LLM с миллиардом параметров демонстрируют лишь небольшие барьеры потерь, когда параметрические симметрии правильно разрешены.

Разрешение параметрических симметрий позволяет соединять и объединять большие предобученные трансформеры через простые линейные пути со значительно улучшенными показателями интерполяции.