Пользователь делится скриптом конфигурации bash для запуска модели Qwen3.6-35B-A3B IQ4_XS с использованием бэкенда Vulkan в llama.cpp на GPU AMD 7900 XTX под управлением Ubuntu.
- Настройка использует бинарный файл `llama-server` с поддержкой Vulkan и специфическими переменными окружения, такими как `GGML_VK_VISIBLE_DEVICES`.
- Ключевые параметры включают размер контекста 262 144 токенов, 99 слоев GPU, включенный flash attention и непрерывное батчинг.
- Конфигурация сообщает об использовании памяти около 22k MiB и утверждает, что скорость генерации токенов в два раза выше, чем у оптимизированного ROCm 7.14 при меньшем потреблении памяти.