ユーザー、GLM5.2推論用にAscend GX10を4台購入を検討

あるRedditユーザーは、同様のハードウェアでGLM5.2をテストした他のユーザーのパフォーマンスベンチマークを引用し、将来のオープンソース「fable 5」モデルの実行に備えるため、4台のAscend GX10 GPUを購入することを検討している。

ベンチマークによると、GLM5.2は128kのコンテキスト長で、4台のDGX SparksまたはAscend GX10上で、プロンプト処理に400〜500 tok/s、出力に約15 tok/sを達成している。
このセットアップは約1000Wの電力を消費し、ユーザーはこれは管理可能だと指摘している。
現在の推論速度を考慮すると、量子化が使いやすさを向上させる方法として提案されている。