한 개발자가 RTX 6000 Pro Blackwell에서 vLLM을 사용하여 Qwen3.6-27B를 벤치마킹하고, 코딩 작업에 대한 성능 트레이드오프를 평가하기 위해 BF16, FP8 및 NVFP4 양자화를 비교했습니다.

  • NVFP4는 토큰 생성 속도에서 우위를 점하며, 메모리 대역폭 요구 사항 감소로 인해 BF16보다 약 2.6배 빠른 처리량을 달성합니다.
  • FP8는 프롬프트 처리 및 프리필 속도에 있어 우수하며, 디양자화 오버헤드 없이 네이티브 Tensor Core 가속을 활용하여 BF16 대비 약 20%의 속도 향상을 제공합니다.
  • NVFP4는 계산 집약적인 배치 중 가중치를 온더플라이로 디양자화해야 하므로 FP8에 비해 약간 프리필 페널티를 겪습니다.
  • 작성자는 NVFP4가 더 빠르지만 에이전트 모드에서 루프 문제와 덜 철저한 응답을 유발했다고 지적하며, 코딩 목적에는 FP8가 전반적으로 가장 좋은 선택이라고 밝혔습니다.

이 결과는 NVFP4가 우수한 디코딩 속도를 제공하지만, 실제 애플리케이션 사용에는 FP8가 성능과 안정성 간의 더 나은 균형을 제공함을 시사합니다.