Пользователь ищет данные об использовании памяти для больших MoE-моделей на будущих системах с большим объемом ОЗУ

Пользователь Reddit запрашивает конкретные данные о потреблении памяти для больших моделей Mixture of Experts (MoE), чтобы спланировать будущую сборку компьютера с 256 ГБ или 512 ГБ DRAM и 48 ГБ VRAM. Пользователь хочет загружать модели сейчас в форматах, таких как safetensors на 16 бит или GGUF, но ему необходимо знать точные размеры для различных квантований (Q2, Q3, Q4), чтобы избежать ошибок в расчетах объема хранилища.

Особый интерес представляет использование памяти с неквантованным KV-кэшем для GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3 и MiniMax M2.x.
Сравнение форматов квантования, таких как IQ4_XS, Q4_K_S, Q4_K_M и IQ3_XXS, на совместимость с llama.cpp, LMStudio, vLLM, SGLang и Kobold.
Исследование ограничений ядра Linux для использования памяти в системах с большим объемом DRAM, но ограниченным VRAM, особенно в части стабильности при загрузке 90-100%.

Пользователь хочет получить реальные данные, чтобы определить, какие размеры квантования укладываются в его целевые ограничения по памяти без вызова ошибок нехватки памяти или нестабильности.