Um usuário do Reddit está buscando conselhos sobre atualizar sua configuração local de modelos de linguagem grandes, especificamente ponderando o trade-off entre velocidade de inferência e capacidades de conhecimento geral.
- O usuário atualmente executa Qwen3.6 35B como seu assistente principal e agente de codificação em um dispositivo Strix Halo.
- Eles relatam alcançar aproximadamente 30-40 tokens por segundo com uma janela de contexto de 131k.
- O usuário sente que o modelo atual carece de conhecimento geral básico e funciona mais como um executor do que como um assistente.
- Para abordar isso, eles estão considerando mudar para o modelo maior Qwen3.5 122B enquanto tentam manter uma velocidade aceitável.