Un usuario de Reddit detalla la configuración de hardware utilizada para ejecutar el modelo MiniMax M3 en cuantización AWQ-INT4 a través de VLLM. La configuración logra aproximadamente 30 tokens por segundo para un solo flujo y 960 tokens por segundo en modo por lotes.

  • 2x RTX Pro 6000 Max-Q (96 GB), 8x RTX 3090 (24 GB) y 2x RTX 5090 (32 GB) proporcionan 448 GB de VRAM.
  • El procesamiento es manejado por un Threadripper 9960x con 128 GB de RAM DDR5 SDIMM en cuatro canales.
  • El sistema utiliza paralelismo de tubería sobre grupos de paralelismo de tensor de 2 para gestionar la carga de trabajo.

El usuario señala que, aunque es posible un millón de tokens de contexto para un solo usuario, apunta a cuatro flujos concurrentes a pesar del alto consumo de energía y costo.