Actualicé mi configuración económica a multi-GPU para inferencia

Un usuario actualizó una PC económica con dos RTX 3090 y una Intel Arc A770 para probar el rendimiento de inferencia multi-GPU usando llama.cpp. El hallazgo principal es que el backend de Vulkan causa una sobrecarga excesiva de memoria en comparación con CUDA, lo que lo hace inadecuado para configuraciones de proveedores mixtos.

El sistema consta de 2x Zotac RTX 3090 (24 GB), 1x Intel Arc A770 (16 GB), un AMD Ryzen 5 1600X y 48 GB de RAM DDR4.
Usar CUDA con dos RTX 3090 permite ejecutar Qwen 3.6 27b Q8_K_XL bf16 cache con un contexto de 170k a 30 tokens/s.
Vulkan añade aproximadamente 5 GB de sobrecarga de memoria por tarjeta de 24 GB, dejando poco espacio para el contexto en configuraciones mixtas.
Ejecutar el mismo modelo en tres GPUs vía Vulkan resultó en solo 3 tokens/s y requirió 21.7 GB de VRAM antes de cargar el KV cache.

El autor concluye que los usuarios deben ceñirse a un único proveedor de GPU y usar su backend nativo en lugar de intentar inferencia multi-GPU con Vulkan.