Un usuario de Reddit busca consejos sobre actualizar su configuración local de modelos de lenguaje grandes, sopesando específicamente el compromiso entre la velocidad de inferencia y las capacidades de conocimiento general.
- El usuario actualmente ejecuta Qwen3.6 35B como su asistente principal y agente de codificación en un dispositivo Strix Halo.
- Informa lograr aproximadamente 30-40 tokens por segundo con una ventana de contexto de 131k.
- El usuario siente que el modelo actual carece de conocimiento general básico y funciona más como un ejecutor que como un asistente.
- Para abordar esto, está considerando cambiar al modelo más grande Qwen3.5 122B mientras intenta mantener una velocidad aceptable.