Un usuario de Reddit busca consejos sobre actualizar su configuración local de modelos de lenguaje grandes, sopesando específicamente el compromiso entre la velocidad de inferencia y las capacidades de conocimiento general.

  • El usuario actualmente ejecuta Qwen3.6 35B como su asistente principal y agente de codificación en un dispositivo Strix Halo.
  • Informa lograr aproximadamente 30-40 tokens por segundo con una ventana de contexto de 131k.
  • El usuario siente que el modelo actual carece de conocimiento general básico y funciona más como un ejecutor que como un asistente.
  • Para abordar esto, está considerando cambiar al modelo más grande Qwen3.5 122B mientras intenta mantener una velocidad aceptable.