Двустороннее обучение позволяет обеспечить линейную связность режимов для трансформеров с миллиардами параметров

Исследователи предлагают масштабируемую структуру, обеспечивающую объединение на основе линейной связности режимов для предварительно обученных трансформеров с миллиардами параметров. Существующие методы обычно оптимизируют пути интерполяции только от одной конечной точки модели, что ограничивает масштабируемость для крупных архитектур. Новый подход применяет параметризованные преобразования весов для согласования функционально эквивалентных решений и использует процедуру двустороннего обучения, при которой обе модели совместно обучаются преобразованиям к общему пути. Эта двунаправленная оптимизация существенно снижает барьеры интерполяции и повышает надежность объединения в масштабе крупных моделей. Эмпирически метод достигает почти нулевых барьеров потерь на датасете WikiText для языковых моделей среднего размера. В задачах компьютерного зрения ViT-L сохраняет точность ImageNet top-1 выше 69% на протяжении всего пути интерполяции. Современные большие языковые модели (LLM) с миллиардами параметров демонстрируют лишь небольшие барьеры потерь при использовании этой техники.