Un utilisateur utilisant actuellement deux RTX 3090 envisage d'ajouter une troisième carte pour pallier les limitations de VRAM qui restreignent les requêtes simultanées à une longueur de contexte de 256k. La configuration proposée consiste à placer la troisième GPU en parallélisme de pipeline avec les deux existantes afin d'augmenter la capacité sans subir de goulots d'étranglement de bande passante.
- La configuration actuelle utilise deux RTX 3090 offrant 48 Go de VRAM.
- Les performances en flux unique sont déjà maximisées à plus de 140 TPS sur les benchmarks standards.
- L'utilisateur rencontre des erreurs Out Of Memory (OOM) lors de la tentative de plus de deux requêtes simultanées en raison des contraintes du KV-Cache.
- Le plan consiste à connecter une troisième GPU via PCIe 4.0 dans une configuration de parallélisme de pipeline.
L'auteur cherche des retours de la communauté sur le fait que des configurations multi-GPU similaires aient été testées et quels résultats ont été obtenus concernant les performances en flux unique par rapport aux flux simultanés.