Blackwell上のNVFP4 Qwen3.6-35B-A3Bが30並列ストリームで~2000 tpsを達成

あるユーザーが、RTX Pro 6000 Blackwell GPU上でNVFP4量子化されたQwen3.6-35B-A3Bモデルを実行し、30の並列画像キャプションングストリームを処理しながら合計スループットで約2000トークン/秒を達成しました。この構成は、高い同時実行性を管理するためにFLASHINFER注意機構バックエンドとプレフィックスキャッシングを使用するvLLMを利用しています。Mixture of Experts (MoE) アーキテクチャは、高い同時実行レベルでも約53-61%のエキスパートのみを活性化するため、より大きなパラメータ数にもかかわらず密接モデルを上回るパフォーマンスを発揮します。このセットアップは、Blackwellハードウェア上のNVFP4量子化がVRAMを使い果たすことなく、大きな並列性を持つマルチモーダルワークロードを効率的に処理できることを証明しています。