Un ingeniero de sistemas en la nube informa que usar una sola tarjeta PCIe x16 con bifurcación 4x4 para conectar cuatro GPUs crea un cuello de botella de ancho de banda para la comunicación peer-to-peer (P2P). Este cuello de botella satura el tejido que conecta las tarjetas, dando como resultado un rendimiento peor que ejecutar con P2P deshabilitado.
- El autor identifica que TP=4 con P2P habilitado produce un rendimiento inferior en comparación con deshabilitar P2P debido a la saturación del puente.
- Las soluciones potenciales incluyen deshabilitar P2P para una ganancia del 10-15%, usar puentes de bifurcación Chinese SlimSAS ($150-$250), o comprar puentes PCIe Gen 4 específicos de Cpayne ($1200).
- Las configuraciones alternativas implican usar paralelismo de pipeline en lugar de paralelismo de tensor, lo cual solo supera a TP=4 con P2P apagado a alta concurrencia.
- Otras opciones incluyen switches PLX usados en eBay, que conllevan riesgos de restricciones de firmware, o placas madre con carriles x16 dedicados que requieren tarjetas de bifurcación retimer costosas ($130+ cada una).
Los hallazgos sugieren que el costo y la complejidad de resolver el cuello de botella de bifurcación a menudo superan las modestas ganancias de rendimiento de P2P, haciendo que deshabilitarlo sea una opción práctica para muchas configuraciones.