Un usuario que actualmente ejecuta dos RTX 3090 está considerando añadir una tercera tarjeta para abordar las limitaciones de VRAM que restringen las solicitudes concurrentes a una longitud de contexto de 256k. La configuración propuesta implica colocar la tercera GPU en paralelo de pipeline con las dos existentes para aumentar la capacidad sin sufrir cuellos de botella de ancho de banda.

  • La configuración actual utiliza dos RTX 3090 que proporcionan 48 GB de VRAM.
  • El rendimiento de un solo flujo ya está maximizado en más de 140 TPS en benchmarks estándar.
  • El usuario experimenta errores Out Of Memory (OOM) al intentar más de dos solicitudes concurrentes debido a las restricciones del KV-Cache.
  • El plan implica conectar una tercera GPU a través de PCIe 4.0 en una configuración de paralelo de pipeline.

El autor busca comentarios de la comunidad sobre si configuraciones multi-GPU similares han sido probadas y qué resultados se lograron respecto al rendimiento de un solo flujo versus flujos concurrentes.