Escalando la conectividad de modos lineales y la fusión en transformadores preentrenados de miles de millones de parámetros

Los investigadores proponen un marco escalable para fusionar transformadores de miles de millones de parámetros entrenados independientemente utilizando conectividad de modos lineales, abordando los límites de escalabilidad en métodos existentes. El enfoque emplea transformaciones de pesos que preservan la función y un procedimiento de aprendizaje dual donde ambos modelos optimizan conjuntamente hacia una trayectoria de interpolación lineal compartida.

El método aplica transformaciones de peso que preservan la funcionalidad correctamente parametrizadas para alinear soluciones funcionalmente equivalentes.
Un procedimiento de aprendizaje dual permite que ambos modelos aprendan conjuntamente las transformaciones correspondientes hacia una trayectoria de interpolación lineal compartida.
La optimización bidireccional reduce sustancialmente las barreras de interpolación, permitiendo una fusión confiable en arquitecturas a gran escala.
Se logran barreras de pérdida cercanas a cero en WikiText para modelos de lenguaje de tamaño medio, marcando la primera demostración de conectividad lineal sin barreras a esta escala.
ViT-L mantiene una precisión superior al 69% en ImageNet top-1 a lo largo de toda la trayectoria de interpolación en el dominio de la visión.
Los LLM modernos de miles de millones de parámetros presentan solo pequeñas barreras de pérdida cuando las simetrías de parámetros se resuelven adecuadamente.

Resolver las simetrías de parámetros permite conectar y fusionar transformadores preentrenados grandes a través de caminos lineales simples con un rendimiento de interpolación sustancialmente mejorado.