Escalando la conectividad de modos lineales y la fusión en transformadores preentrenados de miles de millones de parámetros
Los investigadores proponen un marco escalable para fusionar transformadores de miles de millones de parámetros entrenados independientemente utilizando conectividad de modos lineales, abordando los límites de escalabilidad en métodos existentes. El enfoque emplea transformaciones de pesos que preservan la función y un procedimiento de aprendizaje dual donde ambos modelos optimizan conjuntamente hacia una trayectoria de interpolación lineal compartida.