Um desenvolvedor avaliou o Qwen 3.6 27B usando vLLM em uma RTX 6000 Pro Blackwell, comparando as quantizações BF16, FP8 e NVFP4 para avaliar os trade-offs de desempenho em tarefas de codificação.

  • O NVFP4 domina a velocidade de geração de tokens, alcançando um throughput aproximadamente 2,6x mais rápido que o BF16 devido à redução dos requisitos de largura de banda de memória.
  • O FP8 vence no processamento de prompts e na velocidade de prefill, oferecendo uma aceleração de cerca de 20% em relação ao BF16 ao aproveitar a aceleração nativa do Tensor Core sem sobrecarga de desquantização.
  • O NVFP4 sofre uma leve penalidade de prefill em comparação ao FP8 porque precisa desquantizar os pesos em tempo real durante lotes intensivos em computação.
  • O autor considerou o FP8 a melhor escolha geral para fins de codificação, observando que, embora o NVFP4 seja mais rápido, ele causou problemas de looping e respostas menos completas no modo agente.

Os resultados sugerem que, embora o NVFP4 ofereça velocidade de decodificação superior, o FP8 proporciona um melhor equilíbrio entre desempenho e estabilidade para uso prático.