一位 Reddit 用户正在请求关于大型混合专家(MoE)模型的具体内存消耗数据,以便规划配备 256GB 或 512GB DRAM 和 48GB VRAM 的未来硬件配置。 该用户希望现在下载采用 16 位 safetensors 或 GGUF 等格式的模型,但需要知道各种量化(Q2、Q3、Q4)的确切大小,以避免存储计算错误。
- 特别关注 GLM5.2、Kimi K2.x、DeepSeekV3.2、V4、Mimo、Qwen 397b、MiniMax M3 和 MiniMax M2.x 在未量化 KV 缓存下的内存使用情况。
- 比较 IQ4_XS、Q4_K_S、Q4_K_M 和 IQ3_XXS 等量化格式与 llama.cpp、LMStudio、vLLM、SGLang 和 Kobold 的兼容性。
- 探讨在拥有大容量 DRAM 但 VRAM 有限的配置中,Linux 内核对内存使用的限制,特别是接近 90-100% 容量时的稳定性。
该用户希望获得真实数据,以确定哪些量化大小能在其目标内存约束内运行,而不会导致内存不足错误或系统不稳定。