llama.cpp के लिए एक सामुदायिक पल रिक्वेस्ट (pull request) Intel ARC उपयोगकर्ताओं के लिए प्रॉम्प्ट प्रोसेसिंग गति को काफी बढ़ाता है, विशेष रूप से B580 जैसे हार्डवेयर को लाभ होता है। योगदानकर्ता ने संदर्भ हैंडलिंग को तेज करने के लिए Claude की सहायता से कोड को अनुकूलित किया।
- Qwen3.6 35B A3B Q5_K_XL का उपयोग करके 116k संदर्भ संवाद प्रोसेस करने का समय 510 सेकंड (245t/s) से घटकर 262 सेकंड (462t/s) हो गया।
- अनुकूलन वर्तमान में F16 KV कैश को सपोर्ट करता है, बाद में अन्य क्वांटाइज़ेशन के लिए समर्थन बढ़ाने की योजना है।
सामुदायिक योगदानों के माध्यम से यह सुधार Intel ARC हार्डवेयर को उसके पूर्ण क्षमता के करीब लाता है।