Un usuario logró 100 tokens por segundo en Qwen3.6-27B a Q8_0 usando dos GPUs (RTX 5090 y RTX 3090 Ti). Cambiar de división por capa a modo de división tensorial aumentó el rendimiento de 70 a 100 t/s, con una división tensorial 70/30 que favorece a la 5090 para igualar la potencia de cómputo. El rendimiento varía según el prompt, alcanzando hasta 130 t/s en algunos casos.