Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.
- Метод применяет корректно параметризованные преобразования весов, сохраняющие функциональность, для выравнивания функционально эквивалентных решений.
- Двойной процесс обучения позволяет обеим моделям совместно изучать соответствующие преобразования к общему пути линейной интерполяции.
- Двунаправленная оптимизация существенно снижает барьеры интерполяции, обеспечивая надежное слияние в архитектурах крупного масштаба.
- На WikiText для языковых моделей среднего размера достигаются барьеры потерь, близкие к нулю, что является первым доказательством линейной связности без барьеров на этом масштабе.
- ViT-L сохраняет точность ImageNet top-1 выше 69% на всем пути интерполяции в области компьютерного зрения.
- Современные LLM с миллиардом параметров демонстрируют лишь небольшие барьеры потерь, когда параметрические симметрии правильно разрешены.
Разрешение параметрических симметрий позволяет соединять и объединять большие предобученные трансформеры через простые линейные пути со значительно улучшенными показателями интерполяции.