Un utilisateur examine l'optimisation du modèle Qwen3.6-27B sur une configuration dual AMD Radeon R9700 en utilisant llama.cpp, comparant les performances entre les backends Vulkan et ROCm.
- ROCm atteint un débit de préremplissage significativement plus élevé (1355 tokens/s) en saturant les deux GPU, tandis que Vulkan n'utilise qu'un seul GPU à la fois (682.7 tokens/s).
- La vitesse de génération de tokens est légèrement plus rapide avec Vulkan (24.55 tokens/s) par rapport à ROCm (22.3 tokens/s), bien que ROCm laisse le deuxième GPU partiellement inactif pendant cette phase.
- L'utilisation de `split-mode = tensor` égalise l'utilisation des GPU mais entraîne des performances inférieures en raison d'éventuelles limitations de bande passante PCIe.
L'auteur cherche les conseils de la communauté sur le réglage supplémentaire des paramètres ou des moteurs alternatifs comme vLLM pour maximiser le débit de génération de tokens.