あるユーザーが、llama.cppを使用してデュアルAMD Radeon R9700構成でQwen3.6-27Bモデルを最適化し、VulkanとROCmバックエンド間のパフォーマンスを比較しています。
- ROCmは両方のGPUを飽和させることで、大幅に高いプリフィルスループット(1355トークン/秒)を達成する一方、Vulkanは一度に1つのGPUしか使用しません(682.7トークン/秒)。
- トークン生成速度はROCm(22.3トークン/秒)と比較してVulkan(24.55トークン/秒)の方がわずかに高速ですが、このフェーズ中にROCmは2番目のGPUを部分的にアイドル状態にしておきます。
- `split-mode = tensor`を使用するとGPUの使用が均等になりますが、PCIe帯域幅の制限によりパフォーマンスが低下します。
著者は、トークン生成スループットを最大化するために、さらなるパラメータチューニングやvLLMなどの代替エンジンに関するコミュニティのアドバイスを探しています。