La coincidencia aprendida dualmente permite la conectividad lineal de modos para transformadores de miles de millones de parámetros

Los investigadores proponen un marco escalable para habilitar la fusión basada en conectividad lineal de modos para transformadores preentrenados de miles de millones de parámetros. Los métodos existentes típicamente optimizan rutas de interpolación desde solo un extremo del modelo, limitando la escalabilidad para arquitecturas grandes. El nuevo enfoque aplica transformaciones de pesos parametrizadas para alinear soluciones funcionalmente equivalentes y utiliza un procedimiento de aprendizaje dual donde ambos modelos aprenden conjuntamente transformaciones hacia una ruta compartida. Esta optimización bidireccional reduce sustancialmente las barreras de interpolación y mejora la fiabilidad de la fusión en modelos a gran escala. Empíricamente, el método logra barreras de pérdida cercanas a cero en WikiText para modelos de lenguaje de tamaño medio. En tareas de visión, ViT-L mantiene una precisión top-1 de ImageNet superior al 69% a lo largo de toda la ruta de interpolación. Los LLM modernos de miles de millones de parámetros exhiben solo pequeñas barreras de pérdida utilizando esta técnica.