एक डेवलपर ने RTX 6000 Pro Blackwell पर vLLM का उपयोग करके Qwen 3.6 27B का बेंचमार्क लिया, कोडिंग कार्यों के लिए प्रदर्शन ट्रेड-ऑफ का मूल्यांकन करने के लिए BF16, FP8 और NVFP4 क्वांटाइजेशन की तुलना की।
- NVFP4 टोकन जनरेशन गति में प्रभुत्व रखता है, कम मेमोरी बैंडविड्थ आवश्यकताओं के कारण BF16 की तुलना में लगभग 2.6x तेज थ्रूपुट हासिल करता है।
- FP8 प्रॉम्प्ट प्रोसेसिंग और प्रीफिल गति में जीतता है, बिना डिक्वांटाइज़ेशन ओवरहेड के नेटिव Tensor Core एक्सेलरेशन का लाभ उठाकर BF16 की तुलना में लगभग 20% स्पीडअप प्रदान करता है।
- NVFP4 को भारी कंप्यूट बैच के दौरान वजन को फ्लाइंग डिक्वांटाइज़ करना पड़ने के कारण FP8 की तुलना में थोड़ा प्रीफिल पेनल्टी झेलनी पड़ती है।
- लेखक ने पाया कि कोडिंग उद्देश्यों के लिए FP8 सर्वश्रेष्ठ सामग्रिक विकल्प है, यह नोट करते हुए कि हालांकि NVFP4 तेज है, लेकिन एजेंट मोड में लूपिंग समस्याएं और कम व्यापक प्रतिक्रियाएं उत्पन्न करता है।
परिणाम सुझाव देते हैं कि जबकि NVFP4 श्रेष्ठ डिकोडिंग गति प्रदान करता है, FP8 व्यावहारिक अनुप्रयोग उपयोग के लिए प्रदर्शन और स्थिरता का बेहतर संतुलन प्रदान करता है।