Blackwell에서 NVFP4 Qwen3.6-35B-A3B가 30개 동시 스트림으로 ~2000 tps 달성

한 사용자가 RTX Pro 6000 Blackwell GPU에서 NVFP4 양자화된 Qwen3.6-35B-A3B 모델을 실행하여 30개의 동시 이미지 캡션 스트림을 처리하는 동안 총 처리량으로 초당 약 2000개의 토큰을 달성했습니다. 이 구성은 높은 동시성을 관리하기 위해 FLASHINFER 어텐션 백엔드와 프리픽스 캐싱을 사용하는 vLLM을 활용합니다. Mixture of Experts (MoE) 아키텍처는 높은 동시성 수준에서도 약 53-61%의 전문가만 활성화되므로, 더 큰 매개변수 수에도 불구하고 밀집 모델보다 성능이 우수합니다. 이 설정은 Blackwell 하드웨어에서 NVFP4 양자화가 VRAM을 고갈시키지 않고 상당한 병렬성을 가진 멀티모달 워크로드를 효율적으로 처리할 수 있음을 증명합니다.