双R9700：Qwen3.6 27B的最佳公式？

一名用户正在研究使用 llama.cpp 在双 AMD Radeon R9700 设置上优化 Qwen3.6-27B 模型，比较 Vulkan 和 ROCm 后端之间的性能。

ROCm 通过饱和两块 GPU 实现了显著更高的预填充吞吐量（1355 tokens/s），而 Vulkan 一次仅使用一块 GPU（682.7 tokens/s）。
与 ROCm（22.3 tokens/s）相比，Vulkan 的令牌生成速度略快（24.55 tokens/s），尽管在此阶段 ROCm 的第二块 GPU 部分空闲。
使用 `split-mode = tensor` 可以平衡 GPU 使用率，但由于潜在的 PCIe 带宽限制，导致性能降低。

作者正在寻求社区关于进一步调整参数或使用 vLLM 等替代引擎以最大化令牌生成吞吐量的建议。