한 레딧 사용자는 유사한 하드웨어에서 GLM5.2를 테스트한 다른 사용자의 성능 벤치마크를 인용하며, 향후 오픈소스 "fable 5" 모델을 실행할 준비를 하기 위해 Ascend GX10 GPU 4대를 구매하는 것을 고려하고 있다.

  • 벤치마크에 따르면 GLM5.2는 128k 컨텍스트 길이에서 4대의 DGX Sparks 또는 Ascend GX10에서 프롬프트 처리당 400~500 tok/s, 출력당 약 15 tok/s를 달성한다.
  • 이 설정은 약 1000W의 전력을 소비하며, 사용자는 이것이 관리 가능하다고 지적했다.
  • 현재 추론 속도를 고려할 때 양자화가 사용성을 개선하는 방법으로 제안된다.