Um usuário que atualmente executa duas RTX 3090 está considerando adicionar um terceiro cartão para abordar as limitações de VRAM que restringem solicitações simultâneas em um comprimento de contexto de 256k. A configuração proposta envolve colocar a terceira GPU em paralelo de pipeline com as duas existentes para aumentar a capacidade sem sofrer gargalos de largura de banda.

  • A configuração atual usa duas RTX 3090 fornecendo 48 GB de VRAM.
  • O desempenho de fluxo único já está maximizado em mais de 140 TPS em benchmarks padrão.
  • O usuário experimenta erros Out Of Memory (OOM) ao tentar mais de duas solicitações simultâneas devido às restrições do KV-Cache.
  • O plano envolve conectar uma terceira GPU via PCIe 4.0 em uma configuração de paralelo de pipeline.

O autor está buscando feedback da comunidade sobre se configurações multi-GPU semelhantes foram testadas e quais resultados foram alcançados em relação ao desempenho de fluxo único versus fluxo simultâneo.