يجمع مستخدم على رديت بيانات سرعة الاستدلال لعلامة التحقق nvfp4 بسعة 460 جيجابايت من إنفيديا الخاصة بـ GLM5.2 من المجتمع.

  • يبلغ المؤلف عن تشغيل النموذج بسرعة حوالي 1 توكن في الثانية في إطار محاكاة، مع استقراء ذلك إلى 75 توكنًا في الثانية على جهاز MGPU حقيقي يعمل بتقنية CUDA.
  • يُطلب من المشاركين ذكر عدد التوكنات في الثانية أولاً، متبوعًا بتفاصيل حول محرك الاستدلال ومواصفات الأجهزة.
  • يتضمن تنسيق الإرسال مثالاً يشمل تكوين الذاكرة، ونموذج وحدة المعالجة المركزية، وسرعات إدخال/إخراج القرص.