media r/LocalLLaMA · 3 小时前 · 来源： 4 天前 · open_models

用户考虑购买4x Ascend GX10用于GLM5.2推理

译自 English → 中文

一位Reddit用户正在考虑购买四块Ascend GX10 GPU，为运行未来的开源“fable 5”模型做准备，并引用了其他用户在类似硬件上测试GLM5.2的性能基准。

基准测试显示，在四个DGX Sparks或Ascend GX10上，对于128k上下文长度，GLM5.2的提示处理速度可达400-500 tok/s，输出速度约为15 tok/s。
该配置功耗约为1000W，用户指出这是可以管理的。
鉴于当前的推理速度，建议采用量化方法来改善可用性。

重要性 1/3 r/LocalLLaMA Hardware & chips Inference efficiency