يُفصّل مستخدم النشر الناجح لنموذج MiniMax M2.7 Q3_K_XL عبر ستة من بطاقات NVIDIA Tesla P40، مقدماً تكوين عتاد كامل وإعدادات استنتاج مُحسّنة لاستضافة نماذج LLM محلياً.

  • يتضمن إعداد العتاد لوحة أم Asus X99-E-WS مع BIOS معدل، ووحدة معالجة مركزية Intel Xeon E5-2680 v4، وذاكرة عشوائية DDR4 سعة 128 جيجابايت، وست بطاقات P40 توفر ما مجموعه 144 جيجابايت من ذاكرة الفيديو عبر خطوط Gen3 x8.
  • تُظهر نتائج الاختبار أن استخدام ذاكرة التخزين المؤقت KV بصيغة F16 مع تفعيل Flash Attention يعطي أفضل أداء، محققاً 105.91 رمز في الثانية لمعالجة المطالبات بحجم سياق 32k.
  • التكوين الأمثل يستخدم وضع تقسيم الطبقات مع توزيع متساوٍ (1/1/1/1/1/1)، وحجم دفعة 2048، وحجم الدفعة الفرعية 256؛ تسبب تقسيم الموترات في تعطل النظام بينما ثبت أن ذاكرة التخزين المؤقت KV بصيغة Q8 أبطأ من F16.

يقدم هذا الدليل مرجعاً عملياً للمستخدمين الذين يحاولون تشغيل نماذج ذات معاملات ضخمة على عتاد المستهلك بذاكرة فيديو محدودة لكل بطاقة باستخدام التوازي متعدد البطاقات.