NVFP4 Qwen3.6-35B-A3B no Blackwell alcança ~2000 tps com 30 streams concorrentes

Um usuário demonstra a execução do modelo Qwen3.6-35B-A3B quantizado com NVFP4 em uma GPU RTX Pro 6000 Blackwell, atingindo aproximadamente 2000 tokens por segundo de throughput agregado ao lidar com 30 streams concorrentes de geração de legendas para imagens. A configuração utiliza vLLM com o backend de atenção FLASHINFER e cache de prefixos para gerenciar alta concorrência. A arquitetura Mixture of Experts (MoE) ativa apenas cerca de 53-61% dos especialistas mesmo em níveis altos de concorrência, permitindo que supere modelos densos apesar de sua maior contagem de parâmetros. Esta configuração prova que a quantização NVFP4 no hardware Blackwell pode lidar eficientemente com cargas de trabalho multimodais com paralelismo significativo sem esgotar a VRAM.