Пользователь Reddit запрашивает конкретные данные о потреблении памяти для больших моделей Mixture of Experts (MoE), чтобы спланировать будущую сборку компьютера с 256 ГБ или 512 ГБ DRAM и 48 ГБ VRAM. Пользователь хочет загружать модели сейчас в форматах, таких как safetensors на 16 бит или GGUF, но ему необходимо знать точные размеры для различных квантований (Q2, Q3, Q4), чтобы избежать ошибок в расчетах объема хранилища.
- Особый интерес представляет использование памяти с неквантованным KV-кэшем для GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3 и MiniMax M2.x.
- Сравнение форматов квантования, таких как IQ4_XS, Q4_K_S, Q4_K_M и IQ3_XXS, на совместимость с llama.cpp, LMStudio, vLLM, SGLang и Kobold.
- Исследование ограничений ядра Linux для использования памяти в системах с большим объемом DRAM, но ограниченным VRAM, особенно в части стабильности при загрузке 90-100%.
Пользователь хочет получить реальные данные, чтобы определить, какие размеры квантования укладываются в его целевые ограничения по памяти без вызова ошибок нехватки памяти или нестабильности.