يحاول مستخدم تشغيل نموذج Qwen3.5 122B باستخدام llama-server على نظام مجهز بوحدة معالجة رسومات RTX 5090 وذاكرة عشوائية (RAM) سعة 64 جيجابايت. تبدأ سرعة الاستدلال المبلغ عنها بحوالي 6 رموز في الثانية (tps) وتزداد تدريجياً لتصل إلى حوالي 20 tps أثناء التوليد.
- تكوين الأجهزة: NVIDIA RTX 5090 بذاكرة VRAM سعة 32GB وذاكرة نظام RAM سعة 64GB.
- نوع النموذج: Qwen3.5-122B-A10B مُكمَّم بصيغة Q5_K_S.
- مقاييس الأداء: معدل أولي يبلغ ~6 tps يرتفع إلى ~20 tps على مدار عملية التوليد.
- إعدادات الاستدلال: استخدام llama-server مع تفعيل flash attention، و16 خيطاً (threads)، وطول سياق يبلغ 100,000 رمز.
يسعى المستخدم للحصول على نصائح حول كيفية تحسين هذا الإعداد أكثر لتحقيق سرعات أعلى لتوليد الرموز.