Un usuario informa estar ejecutando Qwen3.6 27B MTP con llama.cpp en una estación de trabajo RTX PRO 6000 Blackwell para reducir la dependencia de Claude, señalando que el modelo es comparable a Sonnet pero sufre de problemas de estabilidad durante las sesiones de codificación.

  • La configuración utiliza Windows 11, la extensión VS Code Copilot y 4 agentes paralelos con contexto completo (1M tokens).
  • El uso de VRAM es de aproximadamente 83 GB de 97 GB, con el modelo compilado usando banderas CUDA específicas para la arquitectura Blackwell.
  • Los problemas de estabilidad incluyen paradas aleatorias de los agentes debido a respuestas malformadas y caídas ocasionales de llama.cpp durante la sesión.
  • La versión MTP proporciona un aumento de velocidad del 15–20% con una calidad comparable a la variante no-MTP.

El autor busca consejos de la comunidad para mejorar la estabilidad de la configuración y explotar adecuadamente el hardware para agentes de codificación locales.