Una configuración con cuatro GPUs 5060 Ti (totalizando $1800) logra 55 tokens por segundo con Qwen3.6-27B-FP8, soportando una longitud de contexto de 262K y caché KV bfloat16. La configuración utiliza P2P y FlashInfer, con resultados de benchmark que muestran un rendimiento de salida de 55.67 tokens y una tasa de aceptación de decodificación especulativa del 65.25%.
El costo de $1800 en GPU ejecuta Qwen3.6-27B con contexto de 262K y 55 tok/s
Traducido del English → Español