NVFP4 Qwen3.6-35B-A3B en Blackwell alcanza ~2000 tps con 30 flujos concurrentes

Un usuario demuestra la ejecución del modelo Qwen3.6-35B-A3B cuantizado con NVFP4 en una GPU RTX Pro 6000 Blackwell, logrando aproximadamente 2000 tokens por segundo de throughput agregado mientras maneja 30 flujos concurrentes de generación de descripciones de imágenes. La configuración utiliza vLLM con el backend de atención FLASHINFER y caché de prefijos para gestionar la alta concurrencia. La arquitectura Mixture of Experts (MoE) activa solo alrededor del 53-61% de los expertos incluso a niveles altos de concurrencia, lo que le permite superar a los modelos densos a pesar de su mayor conteo de parámetros. Esta configuración demuestra que la cuantización NVFP4 en hardware Blackwell puede manejar eficientemente cargas de trabajo multimodales con paralelismo significativo sin agotar la VRAM.