llama.cpp, gfx900 GPU의 dense prefill에 hipBLAS 사용

llama.cpp 저장소에 대한 풀 리퀘스트는 AMD gfx900 아키텍처 GPU에서 dense prefill 연산에 hipBLAS를 활용하는 변경 사항을 도입합니다. 이 수정은 Radeon RX Vega 56/64 및 Radeon Pro Vega 시리즈와 같은 레거시 Vega GPU 하드웨어를 특별히 대상으로 합니다.

테스트된 모델 전반에 걸쳐 평균 약 40%의 성능 향상.
Qwen3.5 4B는 성능이 36.1% 증가합니다.
Qwen3.6 27B는 18.9%의 개선을 보입니다.
Gemma4 12B는 상당한 65.1% 부스트를 달성합니다.

이 업데이트는 오래된 AMD Vega 하드웨어를 실행하는 사용자에게 상당한 속도 향상을 제공하며, 이 특정 아키텍처의 성능 한계를 해결합니다.