media r/LocalLLaMA · hace 2 h · fuente: hace 7 d · open_models

El costo de $1800 en GPU ejecuta Qwen3.6-27B con contexto de 262K y 55 tok/s

Traducido del English → Español

Una configuración con cuatro GPUs 5060 Ti (totalizando $1800) logra 55 tokens por segundo con Qwen3.6-27B-FP8, soportando una longitud de contexto de 262K y caché KV bfloat16. La configuración utiliza P2P y FlashInfer, con resultados de benchmark que muestran un rendimiento de salida de 55.67 tokens y una tasa de aceptación de decodificación especulativa del 65.25%.

Importancia 2/3 r/LocalLLaMA Alibaba (Qwen) Code generation Inference efficiency Reasoning models

Benchmarks

Benchmark	Modelo	Puntuación
Terminal-Bench	Qwen3.6-27b-FP8	55.67tok/s

Leer original