Usuário do Reddit considera mudar de Qwen3.6 35B para Qwen3.5 122B para melhor conhecimento geral

Um usuário do Reddit está buscando conselhos sobre atualizar sua configuração local de modelos de linguagem grandes, especificamente ponderando o trade-off entre velocidade de inferência e capacidades de conhecimento geral.

O usuário atualmente executa Qwen3.6 35B como seu assistente principal e agente de codificação em um dispositivo Strix Halo.
Eles relatam alcançar aproximadamente 30-40 tokens por segundo com uma janela de contexto de 131k.
O usuário sente que o modelo atual carece de conhecimento geral básico e funciona mais como um executor do que como um assistente.
Para abordar isso, eles estão considerando mudar para o modelo maior Qwen3.5 122B enquanto tentam manter uma velocidade aceitável.