llama.cpp usa hipBLAS para prellenado denso en GPUs gfx900

Una solicitud de extracción al repositorio llama.cpp introduce un cambio que utiliza hipBLAS para operaciones de prellenado denso en GPUs de la arquitectura AMD gfx900. Esta modificación está específicamente dirigida a hardware GPU Vega heredado, incluidos modelos como Radeon RX Vega 56/64 y la serie Radeon Pro Vega.

Ganancias de rendimiento de aproximadamente el 40% en promedio entre los modelos probados.
Qwen3.5 4B ve un aumento del 36.1% en el rendimiento.
Qwen3.6 27B muestra una mejora del 18.9%.
Gemma4 12B logra un impulso significativo del 65.1%.

Esta actualización proporciona mejoras sustanciales de velocidad para usuarios que ejecutan hardware AMD Vega más antiguo, abordando las limitaciones de rendimiento en esta arquitectura específica.