llama.cpp использует hipBLAS для плотного префилла на GPU gfx900

Запрос на слияние в репозиторий llama.cpp вносит изменение, использующее hipBLAS для операций плотного префилла на графических процессорах архитектуры AMD gfx900. Это изменение специально ориентировано на устаревшее оборудование Vega GPU, включая модели Radeon RX Vega 56/64 и серию Radeon Pro Vega.

Прирост производительности примерно на 40% в среднем по протестированным моделям.
Qwen3.5 4B демонстрирует увеличение производительности на 36.1%.
Qwen3.6 27B показывает улучшение на 18.9%.
Gemma4 12B достигает значительного прироста на 65.1%.

Это обновление обеспечивает существенное ускорение для пользователей, работающих на старом оборудовании AMD Vega, устраняя ограничения производительности на этой конкретной архитектуре.