Un utilisateur de Reddit cherche des conseils pour mettre à niveau son installation locale de modèle de langage large (LLM), en pesant spécifiquement le compromis entre la vitesse d'inférence et les capacités de connaissance générale.
- L'utilisateur exécute actuellement Qwen3.6 35B comme assistant principal et agent de codage sur un appareil Strix Halo.
- Il rapporte atteindre environ 30 à 40 tok/s avec une fenêtre de contexte de 131k.
- L'utilisateur estime que le modèle actuel manque de connaissances générales de base et fonctionne davantage comme un exécuteur que comme un assistant.
- Pour remédier à cela, il envisage de passer au modèle plus volumineux Qwen3.5 122B tout en essayant de maintenir une vitesse acceptable.