Пользователь Reddit ищет советы по обновлению локальной установки большой языковой модели, конкретно взвешивая компромисс между скоростью вывода и возможностями общих знаний.

  • Пользователь в настоящее время использует Qwen3.6 35B в качестве основного помощника и агента для программирования на устройстве Strix Halo.
  • Он сообщает о достижении примерно 30-40 токенов в секунду с контекстным окном 131k.
  • Пользователь считает, что текущая модель не обладает базовыми общими знаниями и функционирует скорее как исполнитель, чем помощник.
  • Чтобы решить эту проблему, он рассматривает возможность перехода на более крупную модель Qwen3.5 122B, пытаясь сохранить приемлемую скорость.