Los benchmarks de Qwen 3.6 27B NVFP4 muestran una generación de tokens 2,6 veces más rápida que BF16

Un desarrollador evaluó Qwen 3.6 27B utilizando vLLM en una RTX 6000 Pro Blackwell, comparando las cuantizaciones BF16, FP8 y NVFP4 para evaluar los compromisos de rendimiento en tareas de codificación.

NVFP4 domina la velocidad de generación de tokens, logrando un throughput aproximadamente 2,6 veces más rápido que BF16 debido a la reducción de los requisitos del ancho de banda de memoria.
FP8 gana en el procesamiento de prompts y la velocidad de prefill, ofreciendo una aceleración de aproximadamente el 20% sobre BF16 al aprovechar la aceleración nativa de Tensor Core sin sobrecarga de desquantización.
NVFP4 sufre una ligera penalización en el prefill en comparación con FP8 porque debe desquantizar los pesos sobre la marcha durante los lotes intensivos en cómputo.
El autor encontró que FP8 es la mejor opción general para propósitos de codificación, señalando que, aunque NVFP4 es más rápido, causó problemas de bucle y respuestas menos exhaustivas en modo agente.

Los resultados sugieren que, aunque NVFP4 ofrece una velocidad de decodificación superior, FP8 proporciona un mejor equilibrio entre rendimiento y estabilidad para el uso práctico.