一位 Reddit 用户正在从社区收集 Nvidia 的 GLM5.2 460GB nvfp4 checkpoint 的推理速度数据。
- 作者报告称在模拟环境中以每秒约 1 个 token 的速度运行该模型,并推算出在真实的 CUDA MGPU 机器上可达每秒 75 个 token。
- 要求参与者首先说明其每秒 token 数,随后提供推理引擎和硬件规格的详细信息。
- 示例提交格式包括内存配置、CPU 型号以及磁盘 I/O 速度。
一位 Reddit 用户正在从社区收集 Nvidia 的 GLM5.2 460GB nvfp4 checkpoint 的推理速度数据。