Benchmarks NVFP4 Qwen3.6-27B menunjukkan generasi token 2,6x lebih cepat daripada BF16

Seorang pengembang melakukan benchmarking Qwen3.6-27B menggunakan vLLM pada RTX 6000 Pro Blackwell, membandingkan kuantisasi BF16, FP8, dan NVFP4 untuk mengevaluasi trade-off kinerja untuk tugas pemrograman.

NVFP4 mendominasi kecepatan generasi token, mencapai throughput sekitar 2,6x lebih cepat daripada BF16 karena pengurangan persyaratan bandwidth memori.
FP8 menang dalam pemrosesan prompt dan kecepatan prisiang, menawarkan percepatan sekitar 20% dibandingkan BF16 dengan memanfaatkan akselerasi Tensor Core asli tanpa overhead dekuantisasi.
NVFP4 mengalami penalti prisiang sedikit dibandingkan FP8 karena harus mendekuantisasi bobot secara on-the-fly selama batch yang padat komputasi.
Penulis menemukan bahwa FP8 adalah pilihan terbaik secara keseluruhan untuk tujuan pemrograman, mencatat bahwa meskipun NVFP4 lebih cepat, hal itu menyebabkan masalah perulangan dan respons yang kurang tuntas dalam mode agen.

Hasilnya menunjukkan bahwa meskipun NVFP4 menawarkan kecepatan dekoding yang unggul, FP8 memberikan keseimbangan yang lebih baik antara kinerja dan stabilitas untuk penggunaan aplikasi praktis.