media r/LocalLLaMA · 1時間前 · open_models

GLM5.2 のパフォーマンス

翻訳元 English → 日本語

Redditのユーザーが、コミュニティからGLM5.2のNvidia製460GB nvfp4チェックポイントの推論速度データを収集しています。

著者は、シミュレーションハーネスでモデルを約1トークン/秒で実行し、実際のCUDA MGPUマシンでは75トークン/秒に外挿すると報告しています。
パーティシパントには、まずトークン/秒を明記し、その後に推論エンジンとハードウェア仕様に関する詳細を記載するよう求められます。
提出例のフォーマットには、メモリ構成、CPUモデル、ディスクI/O速度が含まれます。

重要度 1/3 r/LocalLLaMA Zhipu AI Hardware & chips Inference efficiency

原文を読む