llama.cpp usa hipBLAS para pré-preenchimento denso em GPUs gfx900

Um pull request no repositório llama.cpp introduz uma alteração que utiliza hipBLAS para operações de pré-preenchimento denso em GPUs da arquitetura AMD gfx900. Esta modificação é direcionada especificamente ao hardware legado Vega GPU, incluindo modelos como Radeon RX Vega 56/64 e a série Radeon Pro Vega.

Ganhos de desempenho de aproximadamente 40% em média nos modelos testados.
Qwen3.5 4B vê um aumento de 36.1% no desempenho.
Qwen3.6 27B mostra uma melhoria de 18.9%.
Gemma4 12B alcança um impulso significativo de 65.1%.

Esta atualização fornece melhorias substanciais de velocidade para usuários que executam hardware AMD Vega mais antigo, abordando limitações de desempenho nesta arquitetura específica.