Un usuario reporta lograr solo 60 tokens por segundo en ráfagas cortas y un promedio de 40-45 TPS al ejecutar Qwen 3.6 27B con cuantización Q8_0 en dos GPUs GeForce 3090 conectadas mediante NVLink. La configuración incluye Ubuntu 24.04, Ryzen 7950x3D y 64GB DDR5, con la salida de pantalla dirigida a través de una eGPU.
Maximizando el rendimiento de 2x3090 con NVLink
Traducido del English → Español