Пользователь сообщает о тестировании режима разделения тензоров с двумя внешними GPU Morefine G1 4090M 16GB, подключенными через Thunderbolt 3 со скоростью 40 Гбит/с. В то время как режим разделения слоев обеспечивает высокие скорости токенов для префилла (PP) и генерации текста (TG), режим разделения тензоров насыщает обе карты во время TG, но страдает от низкой производительности PP из-за насыщения пропускной способности.
- Режим разделения слоев достигает примерно 1300 т/с для PP и 26 т/с для TG (35-40 т/с с MTP) для Qwen3.6-27B @ Q4.
- Режим разделения тензоров с MPT (draft-n-max 3) достигает 50-60 т/с во время TG, насыщая обе карты на уровне 140 Вт каждая и используя около 800 МБ/с общей пропускной способности.
- Производительность PP в режиме разделения тензоров падает до 500-600 т/с с пустым контекстом, поскольку каналы с низкой пропускной способностью насыщены.
Автор спрашивает, теоретически возможно ли реализовать гибридное разделение, которое выполняет префилл на одной карте за раз, а декодирование — на обеих, стремясь объединить высокую производительность TG режима разделения тензоров с меньшими требованиями к пропускной способности режима разделения слоев для PP.