NVFP4 Qwen3.6-35B-A3B на Blackwell достигает ~2000 tps при 30 параллельных потоках

Пользователь демонстрирует запуск модели Qwen3.6-35B-A3B с квантованием NVFP4 на GPU RTX Pro 6000 Blackwell, достигая совокупной пропускной способности около 2000 токенов в секунду при обработке 30 параллельных потоков генерации подписей к изображениям. Конфигурация использует vLLM с бэкендом внимания FLASHINFER и кэшированием префиксов для управления высокой степенью параллелизма. Архитектура Mixture of Experts (MoE) активирует только около 53-61% экспертов даже при высоких уровнях параллелизма, что позволяет ей превосходить плотные модели, несмотря на большее количество параметров. Эта настройка доказывает, что квантование NVFP4 на оборудовании Blackwell может эффективно обрабатывать мультимодальные рабочие нагрузки с высокой степенью параллелизма без исчерпания VRAM.