Un usuario busca datos de uso de memoria para grandes modelos MoE en futuros equipos con gran RAM

Un usuario de Reddit solicita datos específicos de consumo de memoria para grandes modelos Mixture of Experts (MoE) para planificar una futura configuración de hardware con 256 GB o 512 GB de DRAM y 48 GB de VRAM. El usuario tiene la intención de descargar modelos ahora en formatos como safetensors de 16 bits o GGUF, pero necesita conocer los tamaños exactos para varias cuantizaciones (Q2, Q3, Q4) para evitar errores de cálculo de almacenamiento.

Interés específico en el uso de memoria con caché KV sin cuantizar para GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3 y MiniMax M2.x.
Comparación de formatos de cuantización como IQ4_XS, Q4_K_S, Q4_K_M e IQ3_XXS para la compatibilidad con llama.cpp, LMStudio, vLLM, SGLang y Kobold.
Consulta sobre los límites del kernel de Linux para el uso de memoria en equipos con gran DRAM pero VRAM limitada, específicamente respecto a la estabilidad cerca del 90-100% de capacidad.

El usuario quiere datos reales para determinar qué tamaños de cuantización se ajustan a sus restricciones de memoria objetivo sin causar errores de falta de memoria o inestabilidad.