Redditユーザーが、VLLMを使用してAWQ-INT4量子化されたMiniMax M3モデルを実行するために使用されるハードウェア構成を詳細に説明しています。このセットアップは、単一ストリームで約30トークン/秒、バッチモードで960トークン/秒を達成します。

  • 2x RTX Pro 6000 Max-Q (96GB)、8x RTX 3090 (24GB)、および2x RTX 5090 (32GB)が合計448GBのVRAMを提供します。
  • 処理は、4つのチャネルにわたる128GB DDR5 SDIMM RAMを搭載したThreadripper 9960xによって行われます。
  • システムは、ワークロードを管理するためにテンソル並列グループに対してパイプライン並列性を利用しています。

ユーザーは、単一ユーザーに対して100万コンテキストトークンが可能であることを指摘していますが、高い電力消費とコストにもかかわらず、4つの同時ストリームを目指しています。