Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.
Mejores configuraciones para 48GB VRAM con Qwen 3.6 27B
Traducido del English → Español