Пользователь пытается запустить модель Qwen3.5 122B с помощью llama-server на системе, оснащенной GPU RTX 5090 и 64 ГБ оперативной памяти. Сообщаемая скорость инференса начинается примерно с 6 токенов в секунду (tps) и постепенно увеличивается до около 20 tps во время генерации.

  • Конфигурация оборудования: NVIDIA RTX 5090 с 32 ГБ VRAM и 64 ГБ системной RAM.
  • Вариант модели: Qwen3.5-122B-A10B квантована как Q5_K_S.
  • Метрики производительности: Начальная пропускная способность ~6 tps, возрастающая до ~20 tps в ходе генерации.
  • Настройки инференса: Использовался llama-server с включенным flash attention, 16 потоками и длиной контекста 100 000 токенов.

Пользователь ищет советы по дальнейшей оптимизации этой конфигурации для достижения более высокой скорости генерации токенов.