Un utilisateur démontre l'exécution du modèle Qwen3.6-35B-A3B quantisé en NVFP4 sur un GPU RTX Pro 6000 Blackwell, atteignant environ 2000 tokens par seconde de débit agrégé tout en gérant 30 flux simultanés de légende d'image. La configuration utilise vLLM avec le backend d'attention FLASHINFER et la mise en cache des préfixes pour gérer une forte concurrence. L'architecture Mixture of Experts (MoE) n'active que environ 53-61% des experts même à des niveaux de concurrence élevés, lui permettant de surpasser les modèles denses malgré son plus grand nombre de paramètres. Cet agencement prouve que la quantification NVFP4 sur le matériel Blackwell peut gérer efficacement des charges de travail multimodales avec une parallélisation significative sans épuiser la VRAM.
NVFP4 Qwen3.6-35B-A3B sur Blackwell atteint ~2000 tps avec 30 flux simultanés
Traduit de English → Français