يحاول مستخدم تشغيل نموذج Qwen3.5 122B باستخدام llama-server على نظام مجهز بوحدة معالجة رسومات RTX 5090 وذاكرة عشوائية (RAM) سعة 64 جيجابايت. تبدأ سرعة الاستدلال المبلغ عنها بحوالي 6 رموز في الثانية (tps) وتزداد تدريجياً لتصل إلى حوالي 20 tps أثناء التوليد.

  • تكوين الأجهزة: NVIDIA RTX 5090 بذاكرة VRAM سعة 32GB وذاكرة نظام RAM سعة 64GB.
  • نوع النموذج: Qwen3.5-122B-A10B مُكمَّم بصيغة Q5_K_S.
  • مقاييس الأداء: معدل أولي يبلغ ~6 tps يرتفع إلى ~20 tps على مدار عملية التوليد.
  • إعدادات الاستدلال: استخدام llama-server مع تفعيل flash attention، و16 خيطاً (threads)، وطول سياق يبلغ 100,000 رمز.

يسعى المستخدم للحصول على نصائح حول كيفية تحسين هذا الإعداد أكثر لتحقيق سرعات أعلى لتوليد الرموز.