Seorang pengguna Reddit mengumpulkan data kecepatan inferensi untuk checkpoint nvfp4 460GB dari Nvidia untuk GLM5.2 dari komunitas.
- Penulis melaporkan menjalankan model pada sekitar 1 token per detik dalam harness simulasi, diekstrapolasi menjadi 75 token per detik pada mesin MGPU CUDA nyata.
- Peserta diminta untuk menyatakan tokens per detik terlebih dahulu, diikuti dengan detail tentang mesin inferensi dan spesifikasi perangkat keras.
- Format pengiriman contoh mencakup konfigurasi memori, model CPU, dan kecepatan I/O disk.