SoftMoE reemplaza el enrutamiento discreto top-k con una relajación LapSum suave y diferenciable top-k, permitiendo la optimización basada en gradientes de la selección de expertos. Aprende a asignar la activación del experto de forma no uniforme entre capas, con las capas posteriores activando más expertos, mientras utiliza significativamente menos expertos que el MoE disperso tradicional.