一名开发者在 RTX 6000 Pro Blackwell 上使用 vLLM 对 Qwen 3.6 27B 进行了基准测试,比较了 BF16、FP8 和 NVFP4 量化方案,以评估编码任务中的性能权衡。
- NVFP4 在 token 生成速度上占据主导地位,由于降低了对内存带宽的需求,其吞吐量比 BF16 快约 2.6 倍。
- FP8 在提示处理和预填充速度方面获胜,通过利用原生 Tensor Core 加速而无需反量化开销,相比 BF16 提供了约 20% 的加速。
- NVFP4 与 FP8 相比在预填充方面存在轻微的性能损失,因为它必须在计算密集型批次中实时反量化权重。
- 作者发现 FP8 是编码用途的最佳整体选择,指出虽然 NVFP4 更快,但在代理模式下会导致循环问题且回答不够详尽。
结果表明,虽然 NVFP4 提供了更优越的解码速度,但 FP8 为实际应用提供了更好的性能与稳定性平衡。