Un usuario en r/LocalLLaMA está considerando actualizar su configuración de hardware de dos GPUs RTX 3090 a cuatro tarjetas RTX 5070 Ti, evaluando específicamente las implicaciones de rendimiento para inferencia de un solo flujo.
- La configuración propuesta utiliza una placa base Asus Proart Creator B850 Neo con una distribución de carriles PCIe 5.0 4x/4x/4x/4x.
- Ocupar ambas ranuras principales x16 divide los 16 carriles del CPU en modo PCIe 5.0 x8/x8, mientras que dos ranuras M.2 reciben conexiones dedicadas a velocidad completa.
- El usuario busca comentarios de la comunidad sobre el rendimiento para Qwen 3.6 27b utilizando pesos base de 4 bits y una configuración de KV-Cache de 8 bits.
La discusión destaca el escepticismo hacia las predicciones conservadoras de Google sobre que los carriles PCIe limitarán las velocidades de inferencia, señalando un caso anterior donde los aumentos reales de velocidad superaron significativamente las estimaciones en línea.