media r/LocalLLaMA · 1시간 전 · open_models

GLM5.2 성능

번역 English → 한국어

레딧 사용자가 커뮤니티에서 Nvidia의 460GB nvfp4 체크포인트에 대한 GLM5.2의 추론 속도 데이터를 수집하고 있습니다.

작성자는 시뮬레이션 하네스에서 모델을 초당 약 1개의 토큰으로 실행했으며, 실제 CUDA MGPU 머신에서는 초당 75개의 토큰으로 외삽했다고 보고합니다.
참가자들은 먼저 초당 토큰 수를 명시한 후 추론 엔진 및 하드웨어 사양에 대한 세부 정보를 기재해야 합니다.
예시 제출 형식에는 메모리 구성, CPU 모델 및 디스크 I/O 속도가 포함됩니다.

중요도 1/3 r/LocalLLaMA Zhipu AI Hardware & chips Inference efficiency