한 사용자가 MiniMax M2.7 Q3_K_XL 모델을 6개의 NVIDIA Tesla P40 GPU에 성공적으로 배포했으며, 로컬 LLM 호스팅을 위한 완전한 하드웨어 구성과 최적화된 추론 설정을 제공합니다.

  • 하드웨어 설정에는 수정된 BIOS가 포함된 Asus X99-E-WS 마더보드, Intel Xeon E5-2680 v4 CPU, 128GB DDR4 RAM, Gen3 x8 레인을 통해 총 144GB VRAM을 제공하는 6개의 P40 GPU가 포함됩니다.
  • 벤치마크 결과, F16 KV 캐시를 사용하고 Flash Attention을 활성화하면 가장 좋은 성능을 보여주며, 32k 컨텍스트 크기에서 프롬프트 처리 시 초당 105.91 토큰을 달성합니다.
  • 최적의 구성은 레이어 분할 모드(균등 분배: 1/1/1/1/1/1), 배치 크기 2048, ubatch 크기 256을 사용합니다; 텐서 분할은 크래시를 유발했으며 Q8 KV 캐시는 F16보다 느린 것으로 나타났습니다.

이 가이드는 제한된 VRAM을 가진 소비자용 하드웨어에서 멀티 GPU 병렬 처리를 활용하여 대규모 파라미터 모델을 실행하려는 사용자를 위한 실용적인 참조 자료를 제공합니다.