한 레딧 사용자는 256GB 또는 512GB DRAM과 48GB VRAM을 갖춘 미래 하드웨어 빌드를 계획하기 위해 대규모 Mixture of Experts (MoE) 모델의 특정 메모리 소비 데이터를 요청하고 있습니다. 사용자는 현재 16비트 safetensors 또는 GGUF와 같은 형식으로 모델을 다운로드하려고 하지만, 저장 공간 계산 실수를 피하기 위해 다양한 양자화(Q2, Q3, Q4)에 대한 정확한 크기를 알아야 합니다.

  • GLM5.2, Kimi K2.x, DeepSeekV3.2, V4, Mimo, Qwen 397b, MiniMax M3 및 MiniMax M2.x의 비양자화된 KV 캐시 사용 시 메모리 사용량에 대한 특정 관심사.
  • llama.cpp, LMStudio, vLLM, SGLang 및 Kobold와의 호환성을 위한 IQ4_XS, Q4_K_S, Q4_K_M 및 IQ3_XXS와 같은 양자화 형식의 비교.
  • DRAM은 크지만 VRAM이 제한된 장비에서 메모리 사용량에 대한 리눅스 커널 한계, 특히 90-100% 용량 근처의 안정성에 대한 문의.

사용자는 대상 메모리 제약 내에 맞고 메모리 부족 오류나 불안정성을 유발하지 않는 양자화 크기를 결정하기 위해 실제 데이터를 원합니다.