एक Reddit उपयोगकर्ता VLLM के माध्यम से AWQ-INT4 क्वांटीज़ेशन में MiniMax M3 मॉडल चलाने के लिए उपयोग किए गए हार्डवेयर कॉन्फ़िगरेशन का विवरण देता है। सेटअप एकल स्ट्रीम के लिए प्रति सेकंड लगभग 30 टोकन और बैच मोड में प्रति सेकंड 960 टोकन प्राप्त करता है।

  • 2x RTX Pro 6000 Max-Q (96GB), 8x RTX 3090 (24GB), और 2x RTX 5090 (32GB) 448GB VRAM प्रदान करते हैं।
  • प्रोसेसिंग थ्रेडरिपर 9960x द्वारा संभाली जाती है जिसमें चार चैनलों पर 128GB DDR5 SDIMM RAM है।
  • सिस्टम भार को प्रबंधित करने के लिए टेंसर समानांतरता समूहों (tensor parallel groups) के 2 पर पाइपलाइन समानांतरता (pipeline parallelism) का उपयोग करता है।

उपयोगकर्ता ने नोट किया है कि हालांकि एकल उपयोगकर्ता के लिए एक मिलियन संदर्भ टोकन संभव हैं, वे उच्च बिजली खपत और लागत के बावजूद चार समानांतर स्ट्रीम का लक्ष्य रखते हैं।