Actualicé mi configuración económica a multi-GPU para inferencia
Un usuario actualizó una PC económica con dos RTX 3090 y una Intel Arc A770 para probar el rendimiento de inferencia multi-GPU usando llama.cpp. El hallazgo principal es que el backend de Vulkan causa una sobrecarga excesiva de memoria en comparación con CUDA, lo que lo hace inadecuado para configuraciones de proveedores mixtos.