Модели MoE показывают зависимость производительности от устройства

Эмпирическое исследование показывает, что модели на основе смеси экспертов не демонстрируют стабильное превосходство над плотными моделями на консольных или периферийных устройствах. На Apple M2 Pro модель OLMoE-1B-7B отстаёт от аналогичной плотной модели всего на 10%, в то время как на NVIDIA Jetson Orin Nano она отстаёт на 31% и потребляет в 2,1 раза больше энергии на токен из-за ограничений памяти и кэша ключей-значений. Результаты указывают на то, что преимущества редких активаций ограничены объёмом памяти, необходимым для хранения всех параметров, особенно на устройствах с ограниченной пропускной способностью.