يُفصّل مستخدم على رديت تكوين الأجهزة المستخدم لتشغيل نموذج MiniMax M3 بتكمية AWQ-INT4 عبر VLLM. يحقق الإعداد حوالي 30 رمزًا في الثانية لتدفق واحد و960 رمزًا في الثانية في وضع الدفع.
- توفر بطاقتان RTX Pro 6000 Max-Q (96GB)، و8 بطاقات RTX 3090 (24GB)، وبطاقة RTX 5090 واحدة (32GB) إجمالي ذاكرة VRAM سعة 448GB.
- تتم المعالجة بواسطة معالج Threadripper 9960x مع ذاكرة RAM DDR5 SDIMM سعة 128GB عبر أربع قنوات.
- يستخدم النظام توازي الأنابيب عبر مجموعات توازي النواة بحجم 2 لإدارة الحمل.
يُلاحظ المستخدم أنه على الرغم من إمكانية معالجة مليون رمز سياقي لمستخدم واحد، فإنهم يستهدفون دعم أربعة تدفقات متزامنة رغم استهلاك الطاقة العالي والتكلفة.