Эмпирическое исследование показывает, что модели на основе смеси экспертов не демонстрируют стабильное превосходство над плотными моделями на консольных или периферийных устройствах. На Apple M2 Pro модель OLMoE-1B-7B отстаёт от аналогичной плотной модели всего на 10%, в то время как на NVIDIA Jetson Orin Nano она отстаёт на 31% и потребляет в 2,1 раза больше энергии на токен из-за ограничений памяти и кэша ключей-значений. Результаты указывают на то, что преимущества редких активаций ограничены объёмом памяти, необходимым для хранения всех параметров, особенно на устройствах с ограниченной пропускной способностью.
Модели MoE показывают зависимость производительности от устройства
Переведено с English → Русский