Пользователь демонстрирует запуск модели Qwen3.6-27 в квантовании Q8_0 с контекстом до 115 000 токенов на системе с 32 ГБ VRAM. Экспериментируя с уровнями квантования ключ-значение (KV) кэша вместе с весами модели, он достиг стабильного вывода с помощью llama-server и спекулятивного декодирования draft-mtp.

  • Вариант 1 использовал KV кэш Q8_0 для поддержки контекста 95K, достигнув общей скорости токенов 141.6 tok/s на задачах генерации кода.
  • Вариант 2 уменьшил KV кэш до Q5_1, чтобы расширить контекст до 105K токенов, сохранив аналогичную производительность со скоростью 142.0 tok/s.
  • Вариант 3 дополнительно снизил KV кэш до Q4_0 для достижения контекста 115K, что привело к общей скорости принятия 0.6969 и 138.7 tok/s для генерации кода.

Конфигурация позволяет пользователям значительно расширять пределы контекста за типичные ограничения на потребительском оборудовании, балансируя точность весов модели с квантованием KV кэша.