एक उपयोगकर्ता RTX Pro 6000 Blackwell GPU पर NVFP4-क्वांटाइज्ड Qwen3.6-35B-A3B मॉडल चलाने का प्रदर्शन करता है, जिसमें 30 समानांतर इमेज कैप्शनिंग स्ट्रीम्स को संभालते हुए कुल थ्रूपुट में लगभग प्रति सेकंड 2000 टोकन प्राप्त होता है। उच्च समानांतरता को प्रबंधित करने के लिए कॉन्फ़िगरेशन vLLM का उपयोग FLASHINFER एटेंशन बैकएंड और प्रीफ़िक्स कैशिंग के साथ करता है। हाई समानांतरता स्तरों पर भी मिक्स्चर ऑफ एक्सपर्ट्स (MoE) आर्किटेक्चर केवल लगभग 53-61% एक्सपर्ट्स को सक्रिय करता है, जिससे यह अपने बड़े पैरामीटर गिनती के बावजूद घन मॉडल से बेहतर प्रदर्शन करता है। यह सेटअप साबित करता है कि Blackwell हार्डवेयर पर NVFP4 क्वांटाइज़ेशन महत्वपूर्ण समानांतरता के साथ बहुआयामी कार्यभार को कुशलता से संभाल सकता है बिना VRAM को खत्म किए।
30 समानांतर स्ट्रीम्स के साथ Blackwell पर NVFP4 Qwen3.6-35B-A3B लगभग ~2000 tps प्राप्त करता है
अनुवादित English → हिन्दी