Un usuario de Reddit detalla la configuración de hardware utilizada para ejecutar el modelo MiniMax M3 en cuantización AWQ-INT4 a través de VLLM. La configuración logra aproximadamente 30 tokens por segundo para un solo flujo y 960 tokens por segundo en modo por lotes.
- 2x RTX Pro 6000 Max-Q (96 GB), 8x RTX 3090 (24 GB) y 2x RTX 5090 (32 GB) proporcionan 448 GB de VRAM.
- El procesamiento es manejado por un Threadripper 9960x con 128 GB de RAM DDR5 SDIMM en cuatro canales.
- El sistema utiliza paralelismo de tubería sobre grupos de paralelismo de tensor de 2 para gestionar la carga de trabajo.
El usuario señala que, aunque es posible un millón de tokens de contexto para un solo usuario, apunta a cuatro flujos concurrentes a pesar del alto consumo de energía y costo.