llama.cpp utilise hipBLAS pour le préremplissage dense sur les GPU gfx900

Une demande de tirage vers le dépôt llama.cpp introduit une modification qui utilise hipBLAS pour les opérations de préremplissage dense sur les GPU d'architecture AMD gfx900. Cette modification cible spécifiquement le matériel GPU Vega hérité, y compris des modèles comme la Radeon RX Vega 56/64 et la série Radeon Pro Vega.

Gains de performance d'environ 40 % en moyenne sur les modèles testés.
Qwen3.5 4B voit une augmentation de performance de 36,1 %.
Qwen3.6 27B montre une amélioration de 18,9 %.
Gemma4 12B atteint un bond significatif de 65,1 %.

Cette mise à jour offre des améliorations de vitesse substantielles pour les utilisateurs exécutant du matériel AMD Vega plus ancien, répondant aux limitations de performance sur cette architecture spécifique.