一位Reddit用户正在考虑购买四块Ascend GX10 GPU,为运行未来的开源“fable 5”模型做准备,并引用了其他用户在类似硬件上测试GLM5.2的性能基准。
- 基准测试显示,在四个DGX Sparks或Ascend GX10上,对于128k上下文长度,GLM5.2的提示处理速度可达400-500 tok/s,输出速度约为15 tok/s。
- 该配置功耗约为1000W,用户指出这是可以管理的。
- 鉴于当前的推理速度,建议采用量化方法来改善可用性。
一位Reddit用户正在考虑购买四块Ascend GX10 GPU,为运行未来的开源“fable 5”模型做准备,并引用了其他用户在类似硬件上测试GLM5.2的性能基准。