레딧 사용자는 VLLM을 통해 AWQ-INT4 양자화로 MiniMax M3 모델을 실행하는 데 사용되는 하드웨어 구성을 상세히 설명합니다. 이 설정은 단일 스트림당 약 30토큰/초, 배치 모드에서는 960토큰/초를 달성합니다.

  • 2x RTX Pro 6000 Max-Q (96GB), 8x RTX 3090 (24GB), 그리고 2x RTX 5090 (32GB)가 448GB VRAM을 제공합니다.
  • 처리는 4채널에 걸쳐 128GB DDR5 SDIMM RAM을 갖춘 Threadripper 9960x가 담당합니다.
  • 시스템은 워크로드를 관리하기 위해 2개의 텐서 병렬 그룹에 걸쳐 파이프라인 병렬화를 활용합니다.

사용자는 단일 사용자에게 100만 컨텍스트 토큰이 가능하다고 언급하지만, 높은 전력 소비와 비용에도 불구하고 네 개의 동시 스트림을 목표로 한다고 밝혔습니다.