Seorang pengguna Reddit menguraikan konfigurasi perangkat keras yang digunakan untuk menjalankan model MiniMax M3 dalam kuantisasi AWQ-INT4 melalui VLLM. Konfigurasi ini mencapai sekitar 30 token per detik untuk satu aliran dan 960 token per detik dalam mode batch.

  • 2x RTX Pro 6000 Max-Q (96GB), 8x RTX 3090 (24GB), dan 2x RTX 5090 (32GB) menyediakan VRAM sebesar 448GB.
  • Pemrosesan ditangani oleh Threadripper 9960x dengan RAM DDR5 SDIMM 128GB di empat channel.
  • Sistem memanfaatkan paralelisme pipa atas grup paralel tensor berukuran 2 untuk mengelola beban kerja.

Pengguna mencatat bahwa meskipun satu juta token konteks dimungkinkan untuk satu pengguna, mereka menargetkan empat aliran simultan meskipun konsumsi daya dan biayanya tinggi.