開発者がRTX 6000 Pro Blackwell上でvLLMを使用してQwen3.6-27Bをベンチマークし、コーディングタスクに対するパフォーマンスのトレードオフを評価するために、BF16、FP8、NVFP4の量子化を比較した。

  • NVFP4はトークン生成速度で優位であり、メモリ帯域幅要件の削減により、BF16よりも約2.6倍高速なスループットを実現している。
  • FP8はプロンプト処理とプリフィル速度で優れており、デ量子化オーバーヘッドなしでネイティブTensor Coreアクセラレーションを活用することで、BF16に対して約20%の高速化を提供する。
  • NVFP4は、計算集約的なバッチ中に重みをオンザフライでデ量子化する必要があるため、FP8と比較してわずかなプリフィルペナルティを受ける。
  • 著者は、NVFP4がより高速である一方で、エージェントモードでループ問題や不十分な回答を引き起こしたと指摘しつつ、コーディング目的にはFP8が総合的に最良の選択であると見なした。

これらの結果は、NVFP4が優れたデコード速度を提供する一方で、実用的なアプリケーションの使用にはFP8がパフォーマンスと安定性のより良いバランスを提供することを示唆している。