Un usuario logró 100 tokens por segundo en Qwen3.6-27B a Q8_0 usando dos GPUs (RTX 5090 y RTX 3090 Ti). Cambiar de división por capa a modo de división tensorial aumentó el rendimiento de 70 a 100 t/s, con una división tensorial 70/30 que favorece a la 5090 para igualar la potencia de cómputo. El rendimiento varía según el prompt, alcanzando hasta 130 t/s en algunos casos.
100 t/s en Qwen3.6-27B Q8 entre 5090 + 3090 Ti con modo de división tensorial
Traducido del English → Español