Un usuario informa haber probado el modo de división de tensores con dos eGPUs Morefine G1 4090M de 16GB conectadas mediante Thunderbolt 3 a 40Gbps. Mientras que el modo de división por capas produce altas tasas de tokens para el prellenado (PP) y la generación de texto (TG), el modo de división de tensores satura ambas tarjetas durante TG pero sufre de un mal rendimiento en PP debido a la saturación del ancho de banda.

  • El modo de división por capas logra aproximadamente 1300t/s de PP y 26t/s de TG (35-40t/s con MTP) para Qwen3.6-27B @ Q4.
  • El modo de división de tensores con MPT (draft-n-max 3) alcanza 50-60t/s durante TG, saturando ambas tarjetas a 140W cada una y utilizando aproximadamente 800MB/s de ancho de banda total.
  • El rendimiento de PP en el modo de división de tensores cae a 500-600t/s con un contexto vacío porque los enlaces de bajo ancho de banda están saturados.

El autor pregunta si es teóricamente posible implementar una división híbrida que ejecute el prellenado en una tarjeta a la vez mientras descodifica a través de ambas, con el objetivo de combinar el alto rendimiento de TG de la división de tensores con los menores requisitos de ancho de banda de la división por capas para PP.