أداء GLM5.2

يجمع مستخدم على رديت بيانات سرعة الاستدلال لعلامة التحقق nvfp4 بسعة 460 جيجابايت من إنفيديا الخاصة بـ GLM5.2 من المجتمع.

يبلغ المؤلف عن تشغيل النموذج بسرعة حوالي 1 توكن في الثانية في إطار محاكاة، مع استقراء ذلك إلى 75 توكنًا في الثانية على جهاز MGPU حقيقي يعمل بتقنية CUDA.
يُطلب من المشاركين ذكر عدد التوكنات في الثانية أولاً، متبوعًا بتفاصيل حول محرك الاستدلال ومواصفات الأجهزة.
يتضمن تنسيق الإرسال مثالاً يشمل تكوين الذاكرة، ونموذج وحدة المعالجة المركزية، وسرعات إدخال/إخراج القرص.