Пользователь достиг 100 токенов в секунду на Qwen3.6-27B при Q8_0 с использованием двух видеокарт (RTX 5090 и RTX 3090 Ti). Переключение с режима layer split на режим tensor split увеличил пропускную способность с 70 до 100 т/с, при 70/30 распределении тензоров преимущество отдано 5090 для соответствия вычислительной мощности. Пропускная способность варьируется в зависимости от запроса и может достигать до 130 т/с в некоторых случаях.