تُظهر معايير NVFP4 لـ Qwen3.6-27B سرعة توليد رموز أسرع بـ 2.6 مرة من BF16

قام مطوّر بمعايرة Qwen3.6-27B باستخدام vLLM على RTX 6000 Pro Blackwell، وقارن بين التكميم BF16 وFP8 وNVFP4 لتقييم مقايضات الأداء لمهام البرمجة.

يتفوق NVFP4 في سرعة توليد الرموز، محققاً معدل نقل أسرع بحوالي 2.6 مرة من BF16 بسبب تقليل متطلبات عرض النطاق الترددي للذاكرة.
تتفوق FP8 في معالجة المطالبات وسريع الملء المسبق، مما يوفر تسارعاً بنسبة حوالي 20% مقارنة بـ BF16 من خلال الاستفادة من تسريع Tensor Core الأصلي دون عبء إعادة فك التكميم.
يعاني NVFP4 من عقوبة طفيفة في الملء المسبق مقارنة بـ FP8 لأنه يجب عليه فك تكميم الأوزان أثناء التنفيذ في الدُفعات كثيفة الحساب.
وجد المؤلف أن FP8 هي الخيار الأفضل بشكل عام لأغراض البرمجة، مشيراً إلى أنه على الرغم من أن NVFP4 أسرع، إلا أنه تسبب في مشاكل تكرار واستجابات أقل شمولاً في وضع الوكيل.

تشير النتائج إلى أنه بينما يوفر NVFP4 سرعة فك ترميز متفوقة، توفر FP8 توازناً أفضل بين الأداء والاستقرار للاستخدام العملي للتطبيقات.