Пользователь, в настоящее время использующий две RTX 3090, рассматривает возможность добавления третьей карты для устранения ограничений VRAM, которые ограничивают количество одновременных запросов при длине контекста 256k. Предлагаемая конфигурация включает размещение третьего GPU в конвейерном параллелизме с двумя существующими для увеличения емкости без возникновения узких мест пропускной способности.

  • Текущая конфигурация использует две RTX 3090, обеспечивающие 48 ГБ VRAM.
  • Производительность одного потока уже максимальна и превышает 140 TPS на стандартных бенчмарках.
  • Пользователь сталкивается с ошибками Out Of Memory (OOM) при попытке выполнить более двух одновременных запросов из-за ограничений KV-Cache.
  • План предполагает подключение третьего GPU через PCIe 4.0 в конфигурации конвейерного параллелизма.

Автор ищет отзывы сообщества о том, проверялись ли подобные многопроцессорные конфигурации и какие результаты были достигнуты в отношении производительности одного потока по сравнению с одновременными потоками.