Um usuário investiga a otimização do modelo Qwen3.6-27B em uma configuração com duas GPUs AMD Radeon R9700 usando llama.cpp, comparando o desempenho entre os backends Vulkan e ROCm.
- O ROCm alcança um throughput de prefill significativamente maior (1355 tokens/s) saturando ambas as GPUs, enquanto o Vulkan utiliza apenas uma GPU por vez (682.7 tokens/s).
- A velocidade de geração de tokens é ligeiramente mais rápida com o Vulkan (24.55 tokens/s) em comparação ao ROCm (22.3 tokens/s), embora o ROCm deixe a segunda GPU parcialmente ociosa durante esta fase.
- Usar `split-mode = tensor` equilibra o uso das GPUs, mas resulta em desempenho menor devido a possíveis limitações de largura de banda do PCIe.
O autor busca conselhos da comunidade sobre ajustes adicionais de parâmetros ou motores alternativos como vLLM para maximizar o throughput de geração de tokens.