Un usuario de Reddit solicita datos específicos de consumo de memoria para grandes modelos Mixture of Experts (MoE) para planificar una futura configuración de hardware con 256 GB o 512 GB de DRAM y 48 GB de VRAM. El usuario tiene la intención de descargar modelos ahora en formatos como safetensors de 16 bits o GGUF, pero necesita conocer los tamaños exactos para varias cuantizaciones (Q2, Q3, Q4) para evitar errores de cálculo de almacenamiento.

  • Interés específico en el uso de memoria con caché KV sin cuantizar para GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3 y MiniMax M2.x.
  • Comparación de formatos de cuantización como IQ4_XS, Q4_K_S, Q4_K_M e IQ3_XXS para la compatibilidad con llama.cpp, LMStudio, vLLM, SGLang y Kobold.
  • Consulta sobre los límites del kernel de Linux para el uso de memoria en equipos con gran DRAM pero VRAM limitada, específicamente respecto a la estabilidad cerca del 90-100% de capacidad.

El usuario quiere datos reales para determinar qué tamaños de cuantización se ajustan a sus restricciones de memoria objetivo sin causar errores de falta de memoria o inestabilidad.