Pengguna mencari data penggunaan memori untuk model MoE besar pada rig RAM tinggi di masa depan

Seorang pengguna Reddit meminta data konsumsi memori spesifik untuk model Mixture of Experts (MoE) besar guna merencanakan pembangunan perangkat keras masa depan dengan 256GB atau 512GB DRAM dan 48GB VRAM. Pengguna bertujuan untuk mengunduh model sekarang dalam format seperti safetensors 16-bit atau GGUF, tetapi perlu mengetahui ukuran tepat untuk berbagai kuantisasi (Q2, Q3, Q4) untuk menghindari kesalahan perhitungan penyimpanan.

Ketertarikan khusus pada penggunaan memori dengan cache KV yang tidak dikuantisasi untuk GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3, dan MiniMax M2.x.
Perbandingan format kuantisasi seperti IQ4_XS, Q4_K_S, Q4_K_M, dan IQ3_XXS untuk kompatibilitas dengan llama.cpp, LMStudio, vLLM, SGLang, dan Kobold.
Pertanyaan mengenai batas kernel Linux untuk penggunaan memori pada rig dengan DRAM besar tetapi VRAM terbatas, khususnya terkait stabilitas di dekat kapasitas 90-100%.

Pengguna menginginkan data dunia nyata untuk menentukan ukuran kuantisasi mana yang sesuai dengan batasan memori target mereka tanpa menyebabkan kesalahan out-of-memory atau ketidakstabilan.