Performa GLM5.2

Seorang pengguna Reddit mengumpulkan data kecepatan inferensi untuk checkpoint nvfp4 460GB dari Nvidia untuk GLM5.2 dari komunitas.

Penulis melaporkan menjalankan model pada sekitar 1 token per detik dalam harness simulasi, diekstrapolasi menjadi 75 token per detik pada mesin MGPU CUDA nyata.
Peserta diminta untuk menyatakan tokens per detik terlebih dahulu, diikuti dengan detail tentang mesin inferensi dan spesifikasi perangkat keras.
Format pengiriman contoh mencakup konfigurasi memori, model CPU, dan kecepatan I/O disk.