أبلغ مستخدم أن تشغيل نموذج DeepSeek-V4-Flash المكمم بواسطة Bartowski بتنسيق MXFP4 على نظام يعتمد فقط على وحدة المعالجة المركزية يؤدي إلى أداء مخيب للآمال. وعلى الرغم من وجود 512 جيجابايت من ذاكرة DDR4، لم تتجاوز التكوين 3,2 رمز في الثانية.
- اختبر المستخدم التكوين على معالج E5-2699v4 مع بطاقة GTX 1060 المستخدمة للتخفيف (offloading).
- قورن الأداء مع GLM 5.2 (40 مليار معلمة نشطة بتنسيق Q4_K_XL)، والذي عمل بسرعة 1,8 رمز في الثانية.
- يشتبه المستخدم في أن تنسيق MXFP4 يسبب عنق الزجاجة، مقدراً عرض النطاق الترددي الفعلي للذاكرة بحوالي 20 جيجابايت في الثانية.
يسلط المنشور الضوء على مشاكل الكفاءة المحتملة مع تنسيقات التكميم المحددة للاستدلال على وحدة المعالجة المركزية ويسعى للحصول على بدائل لتكميم Q4.