Usuário busca dados de uso de memória para grandes modelos MoE em futuras máquinas com alta RAM

Um usuário do Reddit está solicitando dados específicos de consumo de memória para grandes modelos Mixture of Experts (MoE) para planejar uma futura configuração de hardware com 256 GB ou 512 GB de DRAM e 48 GB de VRAM. O usuário pretende baixar modelos agora em formatos como safetensors de 16 bits ou GGUF, mas precisa saber os tamanhos exatos para várias quantizações (Q2, Q3, Q4) para evitar erros de cálculo de armazenamento.

Interesse específico no uso de memória com cache KV não quantizado para GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3 e MiniMax M2.x.
Comparação de formatos de quantização como IQ4_XS, Q4_K_S, Q4_K_M e IQ3_XXS para compatibilidade com llama.cpp, LMStudio, vLLM, SGLang e Kobold.
Investigação sobre os limites do kernel Linux para uso de memória em máquinas com grande DRAM, mas VRAM limitada, especificamente em relação à estabilidade perto de 90-100% da capacidade.

O usuário quer dados reais para determinar quais tamanhos de quantização se encaixam dentro de suas restrições de memória alvo sem causar erros de falta de memória ou instabilidade.