Seorang pengguna Reddit mengumpulkan data kecepatan inferensi untuk checkpoint nvfp4 460GB dari Nvidia untuk GLM5.2 dari komunitas.

  • Penulis melaporkan menjalankan model pada sekitar 1 token per detik dalam harness simulasi, diekstrapolasi menjadi 75 token per detik pada mesin MGPU CUDA nyata.
  • Peserta diminta untuk menyatakan tokens per detik terlebih dahulu, diikuti dengan detail tentang mesin inferensi dan spesifikasi perangkat keras.
  • Format pengiriman contoh mencakup konfigurasi memori, model CPU, dan kecepatan I/O disk.