Un usuario comparte un script de configuración bash para ejecutar el modelo Qwen3.6-35B-A3B IQ4_XS utilizando el backend de Vulkan en llama.cpp en una GPU AMD 7900 XTX con Ubuntu.

  • La instalación utiliza el binario `llama-server` con soporte para Vulkan y variables de entorno específicas como `GGML_VK_VISIBLE_DEVICES`.
  • Los parámetros clave incluyen un tamaño de contexto de 262.144 tokens, 99 capas de GPU, atención flash habilitada y agrupamiento continuo.
  • La configuración reporta aproximadamente 22k MiB de uso de memoria y afirma que las velocidades de generación de tokens son el doble de rápidas que con ROCm 7.14 optimizado, con una huella de memoria menor.