يُظهر مستخدم تشغيل نموذج Qwen3.6-35B-A3B المُكمَّم بـ NVFP4 على وحدة معالجة الرسومات RTX Pro 6000 Blackwell، محققًا حوالي 2000 توك/ث في إجمالي الإنتاجية أثناء التعامل مع 30 تدفقًا متزامنًا لتسمية الصور. تستخدم التكوين vLLM مع خلفية الانتباه FLASHINFER والتخزين المؤقت للبادئة لإدارة التزامن العالي. يُفعّل بنية مزيج الخبراء (MoE) فقط حوالي 53-61% من الخبراء حتى عند مستويات التزامن العالية، مما يسمح لها بالتفوق على النماذج الكثيفة رغم عددها الأكبر من المعاملات. يُثبت هذا الإعداد أن التكميم NVFP4 على عتاد Blackwell يمكنه التعامل بكفاءة مع أعباء العمل متعددة الوسائط مع توازٍ كبير دون استنفاد ذاكرة الفيديو (VRAM).
NVFP4 Qwen3.6-35B-A3B على Blackwell يحقق ~2000 توك/ث مع 30 تدفقًا متزامنًا
مُترجم من English → العربية