사용자, GLM5.2 추론을 위해 Ascend GX10 4대 구매 고려

한 레딧 사용자는 유사한 하드웨어에서 GLM5.2를 테스트한 다른 사용자의 성능 벤치마크를 인용하며, 향후 오픈소스 "fable 5" 모델을 실행할 준비를 하기 위해 Ascend GX10 GPU 4대를 구매하는 것을 고려하고 있다.

벤치마크에 따르면 GLM5.2는 128k 컨텍스트 길이에서 4대의 DGX Sparks 또는 Ascend GX10에서 프롬프트 처리당 400~500 tok/s, 출력당 약 15 tok/s를 달성한다.
이 설정은 약 1000W의 전력을 소비하며, 사용자는 이것이 관리 가능하다고 지적했다.
현재 추론 속도를 고려할 때 양자화가 사용성을 개선하는 방법으로 제안된다.