Масштабирование линейной связности режимов и слияния для предобученных трансформеров с миллиардом параметров
Исследователи предлагают масштабируемую рамку для объединения независимо обученных трансформеров с миллиардом параметров, используя линейную связность режимов, что позволяет преодолеть ограничения масштабируемости существующих методов. Подход использует преобразования весов, сохраняющие функцию, и двойной процесс обучения, в котором обе модели совместно оптимизируются к общему пути линейной интерполяции.