Blackwell上的NVFP4 Qwen3.6-35B-A3B在30个并发流下实现约2000 tps

一名用户演示了在RTX Pro 6000 Blackwell GPU上运行经过NVFP4量化的Qwen3.6-35B-A3B模型，在处理30个并发的图像描述生成流时，实现了大约每秒2000个令牌的总吞吐量。该配置利用vLLM配合FLASHINFER注意力后端和前缀缓存来管理高并发。混合专家（MoE）架构即使在高水平并发下也仅激活约53-61%的专家，使其尽管参数量更大，仍能超越密集模型。此设置证明了Blackwell硬件上的NVFP4量化可以高效处理具有显著并行度的多模态工作负载，而不会耗尽VRAM。