Um usuário do Reddit detalha a configuração de hardware usada para executar o modelo MiniMax M3 em quantização AWQ-INT4 via VLLM. A configuração alcança aproximadamente 30 tokens por segundo para um único fluxo e 960 tokens por segundo no modo em lote.

  • 2x RTX Pro 6000 Max-Q (96GB), 8x RTX 3090 (24GB) e 2x RTX 5090 (32GB) fornecem 448GB de VRAM.
  • O processamento é realizado por um Threadripper 9960x com 128GB de RAM DDR5 SDIMM em quatro canais.
  • O sistema utiliza paralelismo de pipeline sobre grupos de paralelismo de tensor de 2 para gerenciar a carga de trabalho.

O usuário observa que, embora seja possível um milhão de tokens de contexto para um único usuário, ele visa quatro fluxos concorrentes apesar do alto consumo de energia e custo.