SoftMoE: мягкая дифференцируемая маршрутизация для смеси экспертов в больших языковых моделях

SoftMoE заменяет дискретную маршрутизацию top-k на дифференцируемую мягкую версию top-k LapSum, что позволяет проводить градиентную оптимизацию выбора экспертов. Он обучает распределять активацию экспертов неравномерно по слоям, при этом более глубокие слои активируют больше экспертов, при этом используя значительно меньше экспертов, чем традиционные редкие смеси экспертов.