يحقق مستخدم في تحسين نموذج Qwen3.6-27B على إعداد مزدوج من AMD Radeon R9700 باستخدام llama.cpp، ويقارن الأداء بين خلفيات Vulkan وROCm.

  • يحقق ROCم معدل معالجة أولية أعلى بكثير (1355 رمز/ثانية) عن طريق تشبع كلتا بطاقتي الرسومات، بينما يستخدم Vulkan بطاقة رسومات واحدة فقط في كل مرة (682.7 رمز/ثانية).
  • سرعة توليد الرموز أسرع قليلاً مع Vulkan (24.55 رمز/ثانية) مقارنة بـ ROCm (22.3 رمز/ثانية)، على الرغم من أن ROCm يترك بطاقة الرسومات الثانية خاملة جزئياً خلال هذه المرحلة.
  • استخدام `split-mode = tensor` يوازن استخدام بطاقات الرسومات ولكنه يؤدي إلى أداء أقل بسبب قيود عرض النطاق الترددي لـ PCIe المحتملة.

يبحث المؤلف عن نصائح المجتمع حول ضبط المعلمات الإضافية أو محركات بديلة مثل vLLM لتعظيم معدل توليد الرموز.