Разработчик протестировал Qwen 3.6 27B с использованием vLLM на RTX 6000 Pro Blackwell, сравнивая квантования BF16, FP8 и NVFP4 для оценки компромиссов производительности при задачах программирования.
- NVFP4 доминирует по скорости генерации токенов, обеспечивая примерно в 2,6 раза более высокую пропускную способность, чем BF16, благодаря снижению требований к пропускной способности памяти.
- FP8 выигрывает в обработке запросов и скорости префилла, предлагая ускорение около 20% по сравнению с BF16 за счет использования нативного ускорения Tensor Core без накладных расходов на деквантование.
- NVFP4 испытывает небольшое снижение скорости префилла по сравнению с FP8, поскольку ему необходимо деквантовать веса в процессе вычислений во время тяжелых пакетов.
- Автор пришел к выводу, что FP8 является лучшим общим выбором для задач программирования, отметив, что, хотя NVFP4 быстрее, он вызывал проблемы с зацикливанием и менее полные ответы в режиме агента.
Результаты показывают, что, хотя NVFP4 предлагает превосходную скорость декодирования, FP8 обеспечивает лучший баланс производительности и стабильности для практического использования.