팁: llama.cpp PR를 사용하여 Intel ARC에서 PP 개선하기

llama.cpp에 대한 커뮤니티 풀 리퀘스트는 특히 B580과 같은 하드웨어에 유리한 Intel ARC 사용자의 프롬프트 처리 속도를 크게 향상시킵니다. 기여자는 Claude의 도움으로 코드를 최적화하여 컨텍스트 처리를 가속화했습니다.

Qwen3.6 35B A3B Q5_K_XL을 사용하여 116k 컨텍스트 대화를 처리하는 시간이 510초(245t/s)에서 262초(462t/s)로 단축되었습니다.
현재 이 최적화는 F16 KV 캐시를 지원하며, 나중에 다른 양자화 형식 지원으로 확장할 계획입니다.

이 개선은 지속적인 커뮤니티 기여를 통해 Intel ARC 하드웨어가 잠재력을 최대한 발휘하도록 돕습니다.