Пользователь Reddit ищет советы по обновлению локальной установки большой языковой модели, конкретно взвешивая компромисс между скоростью вывода и возможностями общих знаний.
- Пользователь в настоящее время использует Qwen3.6 35B в качестве основного помощника и агента для программирования на устройстве Strix Halo.
- Он сообщает о достижении примерно 30-40 токенов в секунду с контекстным окном 131k.
- Пользователь считает, что текущая модель не обладает базовыми общими знаниями и функционирует скорее как исполнитель, чем помощник.
- Чтобы решить эту проблему, он рассматривает возможность перехода на более крупную модель Qwen3.5 122B, пытаясь сохранить приемлемую скорость.