Un usuario reporta graves problemas de rendimiento con sus dos GPUs AMD R9700, que no logran ejecutar vLLM con paralelismo de tensor (tp=2) debido a errores de NCCL. La inferencia con una sola tarjeta muestra un throughput extremadamente bajo: 30 tps para Qwen 0.6B y solo 5 tps para un modelo INT4 AWQ de 27B, a pesar de la correcta instalación de ROCm y la configuración del sistema.