media r/LocalLLaMA · 1 小时前 · open_models

Qwen 3.6 27B NVFP4 基准测试显示其 token 生成速度比 BF16 快 2.6 倍

译自 English → 中文

一名开发者在 RTX 6000 Pro Blackwell 上使用 vLLM 对 Qwen 3.6 27B 进行了基准测试，比较了 BF16、FP8 和 NVFP4 量化方案，以评估编码任务中的性能权衡。

NVFP4 在 token 生成速度上占据主导地位，由于降低了对内存带宽的需求，其吞吐量比 BF16 快约 2.6 倍。
FP8 在提示处理和预填充速度方面获胜，通过利用原生 Tensor Core 加速而无需反量化开销，相比 BF16 提供了约 20% 的加速。
NVFP4 与 FP8 相比在预填充方面存在轻微的性能损失，因为它必须在计算密集型批次中实时反量化权重。
作者发现 FP8 是编码用途的最佳整体选择，指出虽然 NVFP4 更快，但在代理模式下会导致循环问题且回答不够详尽。

结果表明，虽然 NVFP4 提供了更优越的解码速度，但 FP8 为实际应用提供了更好的性能与稳定性平衡。

重要性 1/3 r/LocalLLaMA Alibaba (Qwen) Benchmark results Inference efficiency