한 사용자가 llama.cpp를 사용하여 듀얼 AMD Radeon R9700 환경에서 Qwen3.6-27B 모델을 최적화하고 Vulkan과 ROCm 백엔드 간 성능을 비교합니다.
- ROCm은 두 GPU 모두를 포화시켜 훨씬 높은 프리필 처리량(1355 토큰/초)을 달성하는 반면, Vulkan은 한 번에 하나의 GPU만 사용(682.7 토큰/초)합니다.
- 토큰 생성 속도는 ROCm(22.3 토큰/초)보다 Vulkan(24.55 토큰/초)이 약간 더 빠르지만, 이 단계 동안 ROCm은 두 번째 GPU를 부분적으로 유휴 상태로 둡니다.
- `split-mode = tensor`를 사용하면 GPU 사용이 균등해지지만 잠재적인 PCIe 대역폭 제한으로 인해 성능이 낮아집니다.
저자는 토큰 생성 처리량을 극대화하기 위해 추가 매개변수 튜닝이나 vLLM과 같은 대체 엔진에 대한 커뮤니티 조언을 구하고 있습니다.