一名用户演示了在RTX Pro 6000 Blackwell GPU上运行经过NVFP4量化的Qwen3.6-35B-A3B模型,在处理30个并发的图像描述生成流时,实现了大约每秒2000个令牌的总吞吐量。 该配置利用vLLM配合FLASHINFER注意力后端和前缀缓存来管理高并发。混合专家(MoE)架构即使在高水平并发下也仅激活约53-61%的专家,使其尽管参数量更大,仍能超越密集模型。 此设置证明了Blackwell硬件上的NVFP4量化可以高效处理具有显著并行度的多模态工作负载,而不会耗尽VRAM。
Blackwell上的NVFP4 Qwen3.6-35B-A3B在30个并发流下实现约2000 tps
译自 English → 中文