Un desarrollador evaluó Qwen 3.6 27B utilizando vLLM en una RTX 6000 Pro Blackwell, comparando las cuantizaciones BF16, FP8 y NVFP4 para evaluar los compromisos de rendimiento en tareas de codificación.
- NVFP4 domina la velocidad de generación de tokens, logrando un throughput aproximadamente 2,6 veces más rápido que BF16 debido a la reducción de los requisitos del ancho de banda de memoria.
- FP8 gana en el procesamiento de prompts y la velocidad de prefill, ofreciendo una aceleración de aproximadamente el 20% sobre BF16 al aprovechar la aceleración nativa de Tensor Core sin sobrecarga de desquantización.
- NVFP4 sufre una ligera penalización en el prefill en comparación con FP8 porque debe desquantizar los pesos sobre la marcha durante los lotes intensivos en cómputo.
- El autor encontró que FP8 es la mejor opción general para propósitos de codificación, señalando que, aunque NVFP4 es más rápido, causó problemas de bucle y respuestas menos exhaustivas en modo agente.
Los resultados sugieren que, aunque NVFP4 ofrece una velocidad de decodificación superior, FP8 proporciona un mejor equilibrio entre rendimiento y estabilidad para el uso práctico.