एक Reddit उपयोगकर्ता समुदाय से Nvidia के GLM5.2 के 460GB nvfp4 checkpoint के लिए इनफरेंस गति डेटा एकत्र कर रहा है।
- लेखक ने सिमुलेशन हार्नेस में मॉडल को लगभग प्रति सेकंड 1 टोकन की गति पर चलाया, और वास्तविक CUDA MGPU मशीन पर इसे प्रति सेकंड 75 टोकन तक extrapolate किया।
- भागीदारों से कहा जाता है कि वे पहले अपने प्रति सेकंड टोकन बताएं, इसके बाद इनफरेंस इंजन और हार्डवेयर विनिर्देशों के बारे में विवरण दें।
- एक उदाहरण सबमिशन फॉर्मेट में मेमोरी कॉन्फ़िगरेशन, CPU मॉडल और डिस्क I/O गति शामिल है।