Пользователь, в настоящее время использующий две RTX 3090, рассматривает возможность добавления третьей карты для устранения ограничений VRAM, которые ограничивают количество одновременных запросов при длине контекста 256k. Предлагаемая конфигурация включает размещение третьего GPU в конвейерном параллелизме с двумя существующими для увеличения емкости без возникновения узких мест пропускной способности.
- Текущая конфигурация использует две RTX 3090, обеспечивающие 48 ГБ VRAM.
- Производительность одного потока уже максимальна и превышает 140 TPS на стандартных бенчмарках.
- Пользователь сталкивается с ошибками Out Of Memory (OOM) при попытке выполнить более двух одновременных запросов из-за ограничений KV-Cache.
- План предполагает подключение третьего GPU через PCIe 4.0 в конфигурации конвейерного параллелизма.
Автор ищет отзывы сообщества о том, проверялись ли подобные многопроцессорные конфигурации и какие результаты были достигнуты в отношении производительности одного потока по сравнению с одновременными потоками.