एक Reddit उपयोगकर्ता 256GB या 512GB DRAM और 48GB VRAM के साथ भविष्य की हार्डवेयर बिल्ड की योजना बनाने के लिए बड़े मिक्स्चर ऑफ एक्सपर्ट्स (MoE) मॉडल्स के लिए विशिष्ट मेमोरी खपत डेटा का अनुरोध कर रहे हैं। उपयोगकर्ता अब 16-बिट safetensors या GGUF जैसे प्रारूपों में मॉडल डाउनलोड करना चाहते हैं, लेकिन भंडारण की गलत गणना से बचने के लिए विभिन्न क्वांटाइज़ेशन (Q2, Q3, Q4) के लिए सटीक आकार जानने की आवश्यकता है।
- GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3, और MiniMax M2.x के लिए अक्वांटाइज्ड KV कैश के साथ मेमोरी उपयोग में विशेष रुचि।
- llama.cpp, LMStudio, vLLM, SGLang, और Kobold के साथ संगतता के लिए IQ4_XS, Q4_K_S, Q4_K_M, और IQ3_XXS जैसे क्वांटाइज़ेशन प्रारूपों की तुलना।
- बड़ी DRAM लेकिन सीमित VRAM वाली मशीनों पर मेमोरी उपयोग के लिए Linux kernel सीमाओं का पता लगाना, विशेष रूप से 90-100% क्षमता के पास स्थिरता के संबंध में।
उपयोगकर्ता को वास्तविक डेटा चाहिए ताकि यह निर्धारित किया जा सके कि कौन से क्वांट आकार उनकी लक्षित मेमोरी बाधाओं के भीतर फिट होते हैं, बिना आउट-ऑफ-मेमोरी त्रुटियों या अस्थिरता के कारण।