أبلغ مستخدم على رديت عن تشغيل نموذج Qwen3.6 27K بتكمية Q4 باستخدام تحميل الذاكرة العشوائية على بطاقة RTX 3060 بسعة 12 جيجابايت من ذاكرة الفيديو، مشيراً إلى عرض نطاق DRAM يبلغ حوالي 30 جيجابايت/ثانية أثناء الاستدلال.

  • حقق المستخدم معدل معالجة قدره 3.12 رمز في الثانية مع سياق مكون من 18 ألف رمز، متسائلاً عما إذا كان عنق الزجاجة يكمن في تنفيذ LM Studio أم في عتاد وحدة المعالجة المركزية الخاص به.
  • أدت الاختبارات باستخدام طلب أصغر و6 خيوط وحدة معالجة مركزية باستخدام ذاكرة تخزين مؤقت KV بكمية Q8 و37 طبقة تحميل على معالج الرسوميات إلى زيادة معدل المعالجة إلى 4.95 رمز في الثانية مع الحفاظ على عرض نطاق يبلغ 30-35 جيجابايت/ثانية.