एक उपयोगकर्ता llama.cpp का उपयोग करके डुअल AMD Radeon R9700 सेटअप पर Qwen3.6-27B मॉडल को अनुकूलित करने की जांच कर रहा है, Vulkan और ROCm बैकएंड्स के बीच प्रदर्शन की तुलना कर रहा है।

  • ROCm दोनों GPUs को संतृप्त करके काफी उच्च प्रीफिल थ्रूपुट (1355 टोकन/सेकंड) प्राप्त करता है, जबकि Vulkan एक बार में केवल एक GPU का उपयोग करता है (682.7 टोकन/सेकंड)।
  • ROCm (22.3 टोकन/सेकंड) की तुलना में Vulkan के साथ टोकन जनरेट करने की गति थोड़ी तेज है (24.55 टोकन/सेकंड), हालांकि इस चरण के दौरान ROCm दूसरी GPU को आंशिक रूप से निष्क्रिय छोड़ देता है।
  • `split-mode = tensor` का उपयोग करने से GPU उपयोग संतुलित होता है, लेकिन संभावित PCIe बैंडविड्थ सीमाओं के कारण प्रदर्शन कम हो जाता है।

लेखक टोकन जनरेट थ्रूपुट को अधिकतम करने के लिए पैरामीटर के आगे ट्यूनिंग या vLLM जैसे वैकल्पिक इंजनों पर समुदाय की सलाह चाहता है।