Конфигурация для ежедневной бета-версии llama.cpp с Vulkan на 7900xtx/ubuntu

Пользователь делится скриптом конфигурации bash для запуска модели Qwen3.6-35B-A3B IQ4_XS с использованием бэкенда Vulkan в llama.cpp на GPU AMD 7900 XTX под управлением Ubuntu.

Настройка использует бинарный файл `llama-server` с поддержкой Vulkan и специфическими переменными окружения, такими как `GGML_VK_VISIBLE_DEVICES`.
Ключевые параметры включают размер контекста 262 144 токенов, 99 слоев GPU, включенный flash attention и непрерывное батчинг.
Конфигурация сообщает об использовании памяти около 22k MiB и утверждает, что скорость генерации токенов в два раза выше, чем у оптимизированного ROCm 7.14 при меньшем потреблении памяти.