Un utilisateur de Reddit cherche des conseils pour mettre à niveau son installation locale de modèle de langage large (LLM), en pesant spécifiquement le compromis entre la vitesse d'inférence et les capacités de connaissance générale.

  • L'utilisateur exécute actuellement Qwen3.6 35B comme assistant principal et agent de codage sur un appareil Strix Halo.
  • Il rapporte atteindre environ 30 à 40 tok/s avec une fenêtre de contexte de 131k.
  • L'utilisateur estime que le modèle actuel manque de connaissances générales de base et fonctionne davantage comme un exécuteur que comme un assistant.
  • Pour remédier à cela, il envisage de passer au modèle plus volumineux Qwen3.5 122B tout en essayant de maintenir une vitesse acceptable.