Инженер облачных систем сообщает, что использование одной карты PCIe x16 с одним разветвителем 4x4 для подключения четырёх GPU создаёт узкое место пропускной способности для связи peer-to-peer (P2P). Этот узкий момент насыщает сеть, соединяющую карты, что приводит к производительности хуже, чем при отключённом P2P.
- Автор указывает, что TP=4 с включённым P2P даёт худшую производительность по сравнению с отключением P2P из-за насыщения моста.
- Возможные решения включают отключение P2P для получения выигрыша 10-15%, использование китайских разветвителей SlimSAS ($150-$250) или покупку специфических мостов Gen 4 PCIe от Cpayne ($1200).
- Альтернативные конфигурации включают использование конвейерного параллелизма вместо тензорного параллелизма, что превосходит TP=4 с выключенным P2P только при высокой конкурентности.
- Другие варианты включают бывшие в употреблении коммутаторы PLX на eBay, которые несут риск ограничений прошивки, или материнские платы с выделенными линиями x16, требующие дорогих карт-ретаймеров для разветвления ($130+ каждая).
Выводы указывают, что стоимость и сложность устранения узкого места разветвления часто перевешивают скромный прирост производительности от P2P, делая его отключение практичным выбором для многих конфигураций.