Sebuah pull request komunitas untuk llama.cpp secara signifikan meningkatkan kecepatan pemrosesan prompt bagi pengguna Intel ARC, khususnya menguntungkan perangkat keras seperti B580. Kontributor mengoptimalkan kode dengan bantuan Claude untuk mempercepat penanganan konteks.

  • Memproses percakapan konteks 116k turun dari 510 detik (245t/s) menjadi 262 detik (462t/s) menggunakan Qwen3.6 35B A3B Q5_K_XL.
  • Optimisasi saat ini mendukung cache KV F16, dengan rencana untuk memperluas dukungan ke kuantisasi lain nanti.

Peningkatan ini membawa perangkat keras Intel ARC lebih dekat ke potensi penuhnya melalui kontribusi komunitas yang berkelanjutan.