Un usuario pregunta si alguien ha logrado ejecutar Qwen 3.6 27b UD Q8 en múltiples GPUs, señalando problemas con llamacpp y vllm. El modelo se bloquea o se congela durante las solicitudes de múltiples turnos, con llamacpp mostrando errores de CUDA y vllm fallando a mitad del turno, a pesar de funcionar bien con la cuantización Q5.
¿Alguien está ejecutando Qwen 3.6 27b UD Q8 en múltiples GPUs?
Traducido del English → Español