media r/LocalLLaMA · hace 1 h · fuente: hace 10 d · open_models

No sabía que era posible compilar llamacpp para ejecutar CUDA + Vulkan al mismo tiempo

Traducido del English → Español

Un usuario compiló llamacpp con soporte tanto para CUDA como para Vulkan para aprovechar dos GPUs, la w7800 y otra tarjeta. La configuración logró un aumento del +10% en tokens/segundo durante la decodificación para el modelo MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, con planes de ejecutar benchmarks para evaluar las ganancias reales de rendimiento.

Importancia 1/3 r/LocalLLaMA Code generation Inference efficiency Open weights

Leer original