R9700 duplo: Melhor fórmula para Qwen3.6 27B?

Um usuário investiga a otimização do modelo Qwen3.6-27B em uma configuração com duas GPUs AMD Radeon R9700 usando llama.cpp, comparando o desempenho entre os backends Vulkan e ROCm.

O ROCm alcança um throughput de prefill significativamente maior (1355 tokens/s) saturando ambas as GPUs, enquanto o Vulkan utiliza apenas uma GPU por vez (682.7 tokens/s).
A velocidade de geração de tokens é ligeiramente mais rápida com o Vulkan (24.55 tokens/s) em comparação ao ROCm (22.3 tokens/s), embora o ROCm deixe a segunda GPU parcialmente ociosa durante esta fase.
Usar `split-mode = tensor` equilibra o uso das GPUs, mas resulta em desempenho menor devido a possíveis limitações de largura de banda do PCIe.

O autor busca conselhos da comunidade sobre ajustes adicionais de parâmetros ou motores alternativos como vLLM para maximizar o throughput de geração de tokens.