あるユーザーが、MiniMax M2.7 Q3_K_XLモデルを6枚のNVIDIA Tesla P40 GPUにわたって正常にデプロイした詳細を記載しており、ローカルLLMホスティング用の完全なハードウェア構成と最適化された推論設定を提供しています。

  • ハードウェアセットアップには、改修済みBIOSを搭載したAsus X99-E-WSマザーボード、Intel Xeon E5-2680 v4 CPU、128GB DDR4 RAM、Gen3 x8レーン経由で合計144GBのVRAMを提供する6枚のP40 GPUが含まれます。
  • ベンチマークによると、F16 KVキャッシュを使用しFlash Attentionを有効にすると最高のパフォーマンスが得られ、32kのコンテキストサイズでプロンプト処理時に1秒あたり105.91トークンを達成します。
  • 最適な構成は、均等な分散(1/1/1/1/1/1)によるレイヤースプリットモード、バッチサイズ2048、ubatchサイズ256を使用します;テンソル分割はクラッシュを引き起こし、Q8 KVキャッシュはF16よりも遅いことが判明しました。

このガイドは、マルチGPU並列処理を活用して、カードあたりのVRAMが限られたコンシューマー向けハードウェアで大規模パラメータモデルを実行しようとするユーザーにとっての実用的なリファレンスを提供します。