يشارك مستخدم مقاييس أداء مفصلة لتشغيل نموذج Qwen3.6 27B على نظام يحتوي على RTX 5090 و AMD 9800X3D و ذاكرة وصول عشوائي سعة 64 جيجابايت باستخدام llama.cpp.

  • تضمنت الضبط ذاكرة التخزين المؤقت KV من النوع q8، وسياق بحجم 192k، و MTP draft=10، و spec-draft-p-min=0.5، و batch/ubatch 512.
  • أظهر تحليل لـ 6,454 عينة خلال جلسة برمجة تعاونية مختلطة متوسط سرعة معالجة قدره 140.7 tok/s ووسيط قدره 134.9 tok/s.
  • بلغت ذروة الأداء نطاق 120-130 tok/s مع ذيول طويلة تمتد حتى 233 tok/s.
  • يلاحظ المؤلف أن التعامل مع ذاكرة التخزين المؤقت للانتباه الهجين/SWA في llama.cpp ليس مثاليًا بعد لهذا النموذج، مما يسبب تحذيرات بإعادة معالجة المدخلات.

تسلط المنشور الضوء على أن الأرقام المتوسطة قد تخفي تباينات الأداء، مقدّمة توزيعًا حقيقيًا للسرعات بدلاً من مجرد رقم رئيسي.