Caché MoE multinivel: optimización de la activación de expertos en modelos grandes

Los modelos MoE como GLM 5.2 y Deepseek V4 muestran que el 20% superior de los expertos maneja el 85% de las activaciones. Un enfoque de caché multinivel podría desplazar estos expertos a la memoria GPU, aprovechando la VRAM de alta banda ancha para una inferencia más rápida. Sistemas existentes como PowerInfer, llama.cpp de Lidenburg y HOBBIT demuestran implementaciones prácticas de caché y prefetching de expertos.