llama.cpp menggunakan hipBLAS untuk prefill padat pada GPU gfx900

Sebuah pull request ke repositori llama.cpp memperkenalkan perubahan yang memanfaatkan hipBLAS untuk operasi prefill padat pada GPU arsitektur AMD gfx900. Modifikasi ini secara khusus ditargetkan pada perangkat keras GPU Vega lama, termasuk model seperti Radeon RX Vega 56/64 dan seri Radeon Pro Vega.

Peningkatan kinerja sekitar 40% secara rata-rata di seluruh model yang diuji.
Qwen3.5 4B mengalami peningkatan kinerja sebesar 36,1%.
Qwen3.6 27B menunjukkan perbaikan sebesar 18,9%.
Gemma4 12B mencapai lompatan signifikan sebesar 65,1%.

Pembaruan ini memberikan peningkatan kecepatan yang substansial bagi pengguna yang menjalankan perangkat keras AMD Vega yang lebih lama, mengatasi keterbatasan kinerja pada arsitektur spesifik ini.