FoMoE introduce un sistema que particiona las capas de expertos entre trabajadores para evitar réplicas completas del modelo, reduciendo los costos de comunicación hasta 1.42x en comparación con las líneas base y 45.44x en comparación con DDP. Logra aceleraciones de rendimiento de hasta 1.4x mediante un mecanismo de salto de token y demuestra un enrutamiento estable, con beneficios proyectados que se extienden a modelos de escala 100B a través del modelado del sistema.
FoMoE rompe la barrera de réplicas completas con capas de expertos particionadas
Traducido del English → Español