media r/LocalLLaMA · 1 小时前 · open_models

GLM5.2 性能

译自 English → 中文

一位 Reddit 用户正在从社区收集 Nvidia 的 GLM5.2 460GB nvfp4 checkpoint 的推理速度数据。

作者报告称在模拟环境中以每秒约 1 个 token 的速度运行该模型，并推算出在真实的 CUDA MGPU 机器上可达每秒 75 个 token。
要求参与者首先说明其每秒 token 数，随后提供推理引擎和硬件规格的详细信息。
示例提交格式包括内存配置、CPU 型号以及磁盘 I/O 速度。

重要性 1/3 r/LocalLLaMA Zhipu AI Hardware & chips Inference efficiency