ユーザー、将来の高出力RAM搭載機における大規模MoEモデルのメモリ使用量データを求める

あるRedditユーザーは、256GBまたは512GBのDRAMと48GBのVRAMを備えた将来のハードウェア構築を計画するために、大規模なMixture of Experts (MoE) モデルの特定のメモリ消費データを探している。このユーザーは現在、16ビットsafetensorsやGGUFなどの形式でモデルをダウンロードしたいと考えているが、ストレージの計算ミスを避けるために、さまざまな量子化（Q2、Q3、Q4）の正確なサイズを知る必要がある。

GLM5.2、Kimi K2.x、DeepSeekV3.2、V4、Mimo、Qwen 397b、MiniMax M3、MiniMax M2.xにおける非量子化KVキャッシュ付きのメモリ使用量への特定の関心。
llama.cpp、LMStudio、vLLM、SGLang、Koboldとの互換性に関するIQ4_XS、Q4_K_S、Q4_K_M、IQ3_XXSなどの量子化形式の比較。
大容量DRAMだがVRAMが限られた構成において、90〜100％の容量付近での安定性に関して、メモリ使用量に対するLinuxカーネルの制限についての問い合わせ。

ユーザーは、ターゲットメモリ制約内に収まり、メモリ不足エラーや不安定性を引き起こさない量子化サイズを決定するために、実際のデータを得たいと考えている。