Um usuário do Reddit está buscando conselhos sobre atualizar sua configuração local de modelos de linguagem grandes, especificamente ponderando o trade-off entre velocidade de inferência e capacidades de conhecimento geral.

  • O usuário atualmente executa Qwen3.6 35B como seu assistente principal e agente de codificação em um dispositivo Strix Halo.
  • Eles relatam alcançar aproximadamente 30-40 tokens por segundo com uma janela de contexto de 131k.
  • O usuário sente que o modelo atual carece de conhecimento geral básico e funciona mais como um executor do que como um assistente.
  • Para abordar isso, eles estão considerando mudar para o modelo maior Qwen3.5 122B enquanto tentam manter uma velocidade aceitável.