GLM5.2 प्रदर्शन

एक Reddit उपयोगकर्ता समुदाय से Nvidia के GLM5.2 के 460GB nvfp4 checkpoint के लिए इनफरेंस गति डेटा एकत्र कर रहा है।

लेखक ने सिमुलेशन हार्नेस में मॉडल को लगभग प्रति सेकंड 1 टोकन की गति पर चलाया, और वास्तविक CUDA MGPU मशीन पर इसे प्रति सेकंड 75 टोकन तक extrapolate किया।
भागीदारों से कहा जाता है कि वे पहले अपने प्रति सेकंड टोकन बताएं, इसके बाद इनफरेंस इंजन और हार्डवेयर विनिर्देशों के बारे में विवरण दें।
एक उदाहरण सबमिशन फॉर्मेट में मेमोरी कॉन्फ़िगरेशन, CPU मॉडल और डिस्क I/O गति शामिल है।