Un utilisateur de Reddit détaille la configuration matérielle utilisée pour exécuter le modèle MiniMax M3 en quantisation AWQ-INT4 via VLLM. La configuration atteint environ 30 tokens par seconde pour un flux unique et 960 tokens par seconde en mode batch.

  • 2x RTX Pro 6000 Max-Q (96 Go), 8x RTX 3090 (24 Go) et 2x RTX 5090 (32 Go) offrent 448 Go de VRAM.
  • Le traitement est assuré par un Threadripper 9960x avec 128 Go de RAM DDR5 SDIMM sur quatre canaux.
  • Le système utilise le parallélisme de pipeline sur des groupes de parallélisme tensoriel de 2 pour gérer la charge de travail.

L'utilisateur note que bien qu'un million de tokens de contexte soient possibles pour un utilisateur unique, il vise quatre flux simultanés malgré la forte consommation d'énergie et le coût élevé.