듀얼 RTX 3090을 실행 중인 사용자는 256k 컨텍스트 길이에서 동시 요청을 제한하는 VRAM 한계를 해결하기 위해 세 번째 카드를 추가하는 것을 고려하고 있습니다. 제안된 설정은 기존 두 GPU와 파이프라인 병렬로 세 번째 GPU를 배치하여 대역폭 병목 현상 없이 용량을 증가시키는 것입니다.

  • 현재 설정은 듀얼 RTX 3090을 사용하며 VRAM은 48GB입니다.
  • 단일 스트림 성능은 표준 벤치마크에서 140 TPS 이상으로 이미 최대화되었습니다.
  • 사용자는 KV-Cache 제약으로 인해 두 개 이상의 동시 요청을 시도할 때 Out Of Memory (OOM) 오류를 경험합니다.
  • 계획은 PCIe 4.0을 통해 세 번째 GPU를 파이프라인 병렬 구성으로 연결하는 것입니다.

저자는 유사한 멀티 GPU 설정이 테스트되었는지, 그리고 단일 스트림 대 동시 스트림 성능과 관련하여 어떤 결과가 달성되었는지에 대한 커뮤니티 피드백을 찾고 있습니다.