Un utilisateur demande des données sur l'utilisation de la mémoire pour les grands modèles MoE sur les futures machines à haute RAM

Un utilisateur de Reddit demande des données spécifiques sur la consommation de mémoire des grands modèles Mixture of Experts (MoE) pour planifier une future configuration matérielle avec 256 Go ou 512 Go de DRAM et 48 Go de VRAM. L'utilisateur souhaite télécharger les modèles dès maintenant dans des formats tels que safetensors 16 bits ou GGUF, mais doit connaître les tailles exactes pour différentes quantifications (Q2, Q3, Q4) afin d'éviter les erreurs de calcul de stockage.

Intérêt spécifique pour l'utilisation de la mémoire avec le cache KV non quantifié pour GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3 et MiniMax M2.x.
Comparaison des formats de quantification tels que IQ4_XS, Q4_K_S, Q4_K_M et IQ3_XXS pour la compatibilité avec llama.cpp, LMStudio, vLLM, SGLang et Kobold.
Demande d'informations sur les limites du noyau Linux pour l'utilisation de la mémoire sur des configurations avec une grande DRAM mais une VRAM limitée, en particulier concernant la stabilité à proximité de 90 à 100 % de capacité.

L'utilisateur souhaite obtenir des données réelles pour déterminer quelles tailles de quantification s'inscrivent dans ses contraintes de mémoire cibles sans provoquer d'erreurs de mémoire insuffisante ou d'instabilité.