Un usuario investiga la optimización del modelo Qwen3.6-27B en una configuración con dos tarjetas AMD Radeon R9700 usando llama.cpp, comparando el rendimiento entre los backends de Vulkan y ROCm.
- ROCm logra un throughput de prefill significativamente mayor (1355 tokens/s) saturando ambas GPUs, mientras que Vulkan solo utiliza una GPU a la vez (682.7 tokens/s).
- La velocidad de generación de tokens es ligeramente más rápida con Vulkan (24.55 tokens/s) en comparación con ROCm (22.3 tokens/s), aunque ROCm deja la segunda GPU parcialmente inactiva durante esta fase.
- Usar `split-mode = tensor` iguala el uso de las GPUs pero resulta en un rendimiento menor debido a posibles limitaciones del ancho de banda PCIe.
El autor busca consejos de la comunidad sobre ajustes adicionales de parámetros o motores alternativos como vLLM para maximizar el throughput de generación de tokens.