Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.

  • Метод применяет корректно параметризованные преобразования весов, сохраняющие функциональность, для выравнивания функционально эквивалентных решений.
  • Двойной процесс обучения позволяет обеим моделям совместно изучать соответствующие преобразования к общему пути линейной интерполяции.
  • Двунаправленная оптимизация существенно снижает барьеры интерполяции, обеспечивая надежное слияние в архитектурах крупного масштаба.
  • На WikiText для языковых моделей среднего размера достигаются барьеры потерь, близкие к нулю, что является первым доказательством линейной связности без барьеров на этом масштабе.
  • ViT-L сохраняет точность ImageNet top-1 выше 69% на всем пути интерполяции в области компьютерного зрения.
  • Современные LLM с миллиардом параметров демонстрируют лишь небольшие барьеры потерь, когда параметрические симметрии правильно разрешены.

Разрешение параметрических симметрий позволяет соединять и объединять большие предобученные трансформеры через простые линейные пути со значительно улучшенными показателями интерполяции.