يجمع مستخدم على رديت بيانات سرعة الاستدلال لعلامة التحقق nvfp4 بسعة 460 جيجابايت من إنفيديا الخاصة بـ GLM5.2 من المجتمع.
- يبلغ المؤلف عن تشغيل النموذج بسرعة حوالي 1 توكن في الثانية في إطار محاكاة، مع استقراء ذلك إلى 75 توكنًا في الثانية على جهاز MGPU حقيقي يعمل بتقنية CUDA.
- يُطلب من المشاركين ذكر عدد التوكنات في الثانية أولاً، متبوعًا بتفاصيل حول محرك الاستدلال ومواصفات الأجهزة.
- يتضمن تنسيق الإرسال مثالاً يشمل تكوين الذاكرة، ونموذج وحدة المعالجة المركزية، وسرعات إدخال/إخراج القرص.