Un développeur a benchmarké Qwen3.6-27B en utilisant vLLM sur une RTX 6000 Pro Blackwell, comparant les quantifications BF16, FP8 et NVFP4 pour évaluer les compromis de performance pour les tâches de codage.

  • NVFP4 domine la vitesse de génération de tokens, atteignant un débit environ 2,6x plus rapide que BF16 grâce à une réduction des exigences de bande passante mémoire.
  • FP8 l'emporte sur le traitement des prompts et la vitesse de préremplissage, offrant une accélération d'environ 20 % par rapport à BF16 en exploitant l'accélération native des Tensor Core sans surcharge de déquantification.
  • NVFP4 subit un léger pénalité de préremplissage par rapport à FP8 car il doit déquantifier les poids en temps réel lors des lots intensifs en calcul.
  • L'auteur a trouvé que FP8 était le meilleur choix global pour le codage, notant que bien que NVFP4 soit plus rapide, il a provoqué des problèmes de bouclage et des réponses moins approfondies en mode agent.

Les résultats suggèrent que bien que NVFP4 offre une vitesse de décodage supérieure, FP8 fournit un meilleur équilibre entre performance et stabilité pour l'utilisation d'applications pratiques.