Un estudio empírico encuentra que los modelos Mixture-of-Experts no superan consistentemente a los modelos densos en hardware de consumo o edge. En el Apple M2 Pro, OLMoE-1B-7B es solo un 10% más lento que un modelo denso comparable, mientras que en el NVIDIA Jetson Orin Nano, es un 31% más lento con 2.1 veces más energía por token, debido a restricciones de memoria y KV-cache. Los resultados indican que los beneficios de la activación dispersa están limitados por la huella de memoria del total de parámetros, especialmente en dispositivos edge limitados por ancho de banda.
Los modelos MoE muestran un rendimiento de inferencia dependiente del dispositivo
Traducido del English → Español