用户寻求未来高内存配置中大型 MoE 模型的内存使用数据

一位 Reddit 用户正在请求关于大型混合专家（MoE）模型的具体内存消耗数据，以便规划配备 256GB 或 512GB DRAM 和 48GB VRAM 的未来硬件配置。该用户希望现在下载采用 16 位 safetensors 或 GGUF 等格式的模型，但需要知道各种量化（Q2、Q3、Q4）的确切大小，以避免存储计算错误。

特别关注 GLM5.2、Kimi K2.x、DeepSeekV3.2、V4、Mimo、Qwen 397b、MiniMax M3 和 MiniMax M2.x 在未量化 KV 缓存下的内存使用情况。
比较 IQ4_XS、Q4_K_S、Q4_K_M 和 IQ3_XXS 等量化格式与 llama.cpp、LMStudio、vLLM、SGLang 和 Kobold 的兼容性。
探讨在拥有大容量 DRAM 但 VRAM 有限的配置中，Linux 内核对内存使用的限制，特别是接近 90-100% 容量时的稳定性。

该用户希望获得真实数据，以确定哪些量化大小能在其目标内存约束内运行，而不会导致内存不足错误或系统不稳定。