FoMoE представляет систему, которая распределяет экспертизные слои между рабочими, чтобы избежать полных копий модели, снижая затраты на коммуникацию до 1,42 раза по сравнению с эффективными базовыми вариантами и до 45,44 раза по сравнению с DDP. Система достигает увеличения производительности до 1,4 раза за счёт механизма пропуска токенов и демонстрирует стабильную маршрутизацию, с прогнозируемыми преимуществами, распространяющимися на модели масштаба 100B, за счёт системного моделирования.
FoMoE преодолевает порог полных копий с помощью разделенных экспертиз слоев
Переведено с English → Русский