一名用户正在研究使用 llama.cpp 在双 AMD Radeon R9700 设置上优化 Qwen3.6-27B 模型,比较 Vulkan 和 ROCm 后端之间的性能。
- ROCm 通过饱和两块 GPU 实现了显著更高的预填充吞吐量(1355 tokens/s),而 Vulkan 一次仅使用一块 GPU(682.7 tokens/s)。
- 与 ROCm(22.3 tokens/s)相比,Vulkan 的令牌生成速度略快(24.55 tokens/s),尽管在此阶段 ROCm 的第二块 GPU 部分空闲。
- 使用 `split-mode = tensor` 可以平衡 GPU 使用率,但由于潜在的 PCIe 带宽限制,导致性能降低。
作者正在寻求社区关于进一步调整参数或使用 vLLM 等替代引擎以最大化令牌生成吞吐量的建议。