Пользователь делится скриптом конфигурации bash для запуска модели Qwen3.6-35B-A3B IQ4_XS с использованием бэкенда Vulkan в llama.cpp на GPU AMD 7900 XTX под управлением Ubuntu.

  • Настройка использует бинарный файл `llama-server` с поддержкой Vulkan и специфическими переменными окружения, такими как `GGML_VK_VISIBLE_DEVICES`.
  • Ключевые параметры включают размер контекста 262 144 токенов, 99 слоев GPU, включенный flash attention и непрерывное батчинг.
  • Конфигурация сообщает об использовании памяти около 22k MiB и утверждает, что скорость генерации токенов в два раза выше, чем у оптимизированного ROCm 7.14 при меньшем потреблении памяти.