يقوم طلب سحب من المجتمع لـ llama.cpp بتحسين سرعة معالجة المطالبات بشكل كبير لمستخدمي Intel ARC، مما يفيد بشكل خاص الأجهزة مثل B580. قام المساهم بتحسين الكود بمساعدة Claude لتسريع معالجة السياق.

  • انخفضت معالجة محادثة سياق 116k من 510 ثانية (245t/s) إلى 262 ثانية (462t/s) باستخدام Qwen3.6 35B A3B Q5_K_XL.
  • يدعم التحسين الحالي ذاكرة التخزين المؤقت KV F16، مع خطط لتوسيع الدعم لعمليات الكم الأخرى لاحقًا.

يؤدي هذا التحسين إلى تقريب أجهزة Intel ARC من إمكاناتها الكاملة من خلال المساهمات المستمرة للمجتمع.