يُظهر مستخدم تشغيل نموذج Qwen3.6-27 في تكميم Q8_0 مع ما يصل إلى 115,000 رمز سياقي على نظام يحتوي على 32 جيجابايت من ذاكرة VRAM. من خلال تجربة مستويات مختلفة لتكميم ذاكرة التخزين المؤقت للمفتاح والقيمة (KV) alongside أوزان النموذج، حققوا استنتاجًا مستقرًا باستخدام llama-server وdraft-mtp speculative decoding.

  • استخدم الخيار 1 ذاكرة تخزين مؤقت KV بـ Q8_0 لدعم سياق 95K، محققًا سرعة رمزية إجمالية تبلغ 141.6 tok/s في مهام توليد الكود.
  • قلل الخيار 2 ذاكرة التخزين المؤقت KV إلى Q5_1 لتمديد السياق إلى 105K رمز، مع الحفاظ على أداء مشابه بمعدل 142.0 tok/s.
  • خفض الخيار 3 ذاكرة التخزين المؤقت KV أكثر إلى Q4_0 للوصول إلى سياق 115K، مما أدى إلى معدل قبول إجمالي يبلغ 0.6969 و138.7 tok/s لتوليد الكود.

يتيح التكوين للمستخدمين دفع حدود السياق بشكل كبير بما يتجاوز القيود النموذجية على الأجهزة الاستهلاكية من خلال موازنة دقة أوزان النموذج مع تكميم ذاكرة التخزين المؤقت KV.