Пользователь скомпилировал llamacpp с поддержкой CUDA и Vulkan, чтобы использовать две видеокарты — w7800 и другую карту. Настройка обеспечила увеличение скорости декодирования на 10% для модели MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, с планами провести измерения для оценки реальных выигрышей в производительности.