एक उपयोगकर्ता छह NVIDIA Tesla P40 GPUs पर MiniMax M2.7 Q3_K_XL मॉडल के सफल डिप्लॉयमेंट का विवरण देता है, स्थानीय LLM होस्टिंग के लिए पूर्त हार्डवेयर कॉन्फ़िगरेशन और अनुकूलित इनफरेंस सेटिंग्स प्रदान करता है।
- हार्डवेयर सेटअप में एक मॉड्डेड BIOS के साथ Asus X99-E-WS मदरबोर्ड, Intel Xeon E5-2680 v4 CPU, 128GB DDR4 RAM और Gen3 x8 लेंस के माध्यम से कुल 144GB VRAM प्रदान करने वाली छह P40 GPUs शामिल हैं।
- बेंचमार्क दिखाते हैं कि Flash Attention सक्षम के साथ F16 KV कैश का उपयोग करना सर्वोत्तम प्रदर्शन देता है, 32k संदर्भ आकार के लिए प्रॉम्प्ट प्रसंस्करण में प्रति सेकंड 105.91 टोकन प्राप्त करता है।
- अनुकूलित कॉन्फ़िगरेशन बराबर वितरण (1/1/1/1/1/1) के साथ लेयर स्लिट मोड, बैच साइज 2048 और ubatch साइज 256 का उपयोग करता है; टेंसर स्लिटिंग ने क्रैश किए जबकि Q8 KV कैश F16 से धीमा निकला।
यह गाइड सीमित VRAM प्रति कार्ड वाले उपभोक्ता-ग्रेड हार्डवेयर पर मल्टी-GPU पैरेलेलिज्म का लाभ उठाकर बड़े पैरामीटर मॉडल चलाने का प्रयास कर रहे उपयोगकर्ताओं के लिए एक व्यावहारिक संदर्भ प्रदान करती है।