Seorang pengguna mendemonstrasikan menjalankan model Qwen3.6-35B-A3B yang dikuantisasi NVFP4 pada GPU RTX Pro 6000 Blackwell, mencapai sekitar 2000 token per detik dalam throughput agregat sambil menangani 30 aliran captioning gambar simultan. Konfigurasi ini memanfaatkan vLLM dengan backend perhatian FLASHINFER dan caching awalan untuk mengelola konkurensi tinggi. Arsitektur Mixture of Experts (MoE) hanya mengaktifkan sekitar 53-61% ahli bahkan pada tingkat konkurensi tinggi, memungkinkannya mengungguli model padat meskipun memiliki jumlah parameter yang lebih besar. Pengaturan ini membuktikan bahwa kuantisasi NVFP4 pada perangkat keras Blackwell dapat menangani beban kerja multimodal dengan paralelisme signifikan secara efisien tanpa menghabiskan VRAM.
NVFP4 Qwen3.6-35B-A3B di Blackwell mencapai ~2000 tps dengan 30 aliran simultan
Diterjemahkan dari English → Bahasa Indonesia