Redditのユーザーが、コミュニティからGLM5.2のNvidia製460GB nvfp4チェックポイントの推論速度データを収集しています。

  • 著者は、シミュレーションハーネスでモデルを約1トークン/秒で実行し、実際のCUDA MGPUマシンでは75トークン/秒に外挿すると報告しています。
  • パーティシパントには、まずトークン/秒を明記し、その後に推論エンジンとハードウェア仕様に関する詳細を記載するよう求められます。
  • 提出例のフォーマットには、メモリ構成、CPUモデル、ディスクI/O速度が含まれます。