يبحث مستخدم عن توصيات لأفضل نموذج برمجة لتشغيله على مجموعة عتاد مخصص تتكون من ثلاث وحدات Asus Ascent GX10 (GB10)، مع توقع تزامن لـ 5-10 مستخدمين.

  • تستخدم البنية المقترحة vLLM مقترنة بـ llama-swap.
  • تشمل النماذج المحتملة قيد النظر Qwen 3.5 122B وQwen 3-coder وDeepseek V4 Flash DSpark.
  • يستفسر المستخدم عن الحاجة إلى توسيع هامش السياق لكل مستخدم وما إذا كانت ثلاث وحدات Spark مثالية لهذا التكوين.