media r/LocalLLaMA · hace 2 h · fuente: hace 10 d · open_models

¿Alguien está ejecutando Qwen 3.6 27b UD Q8 en múltiples GPUs?

Traducido del English → Español

Un usuario pregunta si alguien ha logrado ejecutar Qwen 3.6 27b UD Q8 en múltiples GPUs, señalando problemas con llamacpp y vllm. El modelo se bloquea o se congela durante las solicitudes de múltiples turnos, con llamacpp mostrando errores de CUDA y vllm fallando a mitad del turno, a pesar de funcionar bien con la cuantización Q5.

Importancia 1/3 r/LocalLLaMA Alibaba (Qwen) Code generation Inference efficiency

Leer original