Un usuario compiló llamacpp con soporte tanto para CUDA como para Vulkan para aprovechar dos GPUs, la w7800 y otra tarjeta. La configuración logró un aumento del +10% en tokens/segundo durante la decodificación para el modelo MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, con planes de ejecutar benchmarks para evaluar las ganancias reales de rendimiento.
No sabía que era posible compilar llamacpp para ejecutar CUDA + Vulkan al mismo tiempo
Traducido del English → Español