Модели MoE, такие как GLM 5.2 и Deepseek V4, показывают, что передние 20% экспертов обрабатывают 85% активаций. Многоуровневый подход к кэшированию может переместить эти экспертов в память GPU, используя высокоскоростную VRAM для ускорения инференса. Существующие системы, такие как PowerInfer, llama.cpp Лиденбурга и HOBBIT, демонстрируют практическую реализацию кэширования экспертов и предварительной загрузки.
Многоуровневое кэширование MoE: оптимизация активации экспертов в крупных моделях
Переведено с English → Русский