あるRedditユーザーは、256GBまたは512GBのDRAMと48GBのVRAMを備えた将来のハードウェア構築を計画するために、大規模なMixture of Experts (MoE) モデルの特定のメモリ消費データを探している。 このユーザーは現在、16ビットsafetensorsやGGUFなどの形式でモデルをダウンロードしたいと考えているが、ストレージの計算ミスを避けるために、さまざまな量子化(Q2、Q3、Q4)の正確なサイズを知る必要がある。

  • GLM5.2、Kimi K2.x、DeepSeekV3.2、V4、Mimo、Qwen 397b、MiniMax M3、MiniMax M2.xにおける非量子化KVキャッシュ付きのメモリ使用量への特定の関心。
  • llama.cpp、LMStudio、vLLM、SGLang、Koboldとの互換性に関するIQ4_XS、Q4_K_S、Q4_K_M、IQ3_XXSなどの量子化形式の比較。
  • 大容量DRAMだがVRAMが限られた構成において、90〜100%の容量付近での安定性に関して、メモリ使用量に対するLinuxカーネルの制限についての問い合わせ。

ユーザーは、ターゲットメモリ制約内に収まり、メモリ不足エラーや不安定性を引き起こさない量子化サイズを決定するために、実際のデータを得たいと考えている。