한 사용자가 CPU 전용 시스템에서 Bartowski 양자화된 DeepSeek-V4-Flash 모델을 MXFP4 형식으로 실행하면 실망스러운 성능을 보인다고 보고했습니다. DDR4 메모리 512GB를 탑재했음에도 불구하고, 이 구성은 초당 3.2 토큰이라는 결과를 얻는 데 그쳤습니다.
- 사용자는 E5-2699v4 프로세서와 오프로딩에 사용된 GTX 1060에서 이 구성을 테스트했습니다.
- 성능은 GLM 5.2(Q4_K_XL에서 40B 활성 파라미터)와 비교되었으며, 이는 초당 1.8 t/s였습니다.
- 사용자는 MXFP4 형식이 병목 현상을 유발한다고 의심하며, 유효 메모리 대역폭이 약 20GB/s라고 추정합니다.
이 게시물은 CPU 추론을 위한 특정 양자화 형식의 잠재적 효율성 문제를 강조하며, 대체 Q4 양자화를 찾고 있습니다.