Un usuario informa estar ejecutando Qwen3.6 27B MTP con llama.cpp en una estación de trabajo RTX PRO 6000 Blackwell para reducir la dependencia de Claude, señalando que el modelo es comparable a Sonnet pero sufre de problemas de estabilidad durante las sesiones de codificación.
- La configuración utiliza Windows 11, la extensión VS Code Copilot y 4 agentes paralelos con contexto completo (1M tokens).
- El uso de VRAM es de aproximadamente 83 GB de 97 GB, con el modelo compilado usando banderas CUDA específicas para la arquitectura Blackwell.
- Los problemas de estabilidad incluyen paradas aleatorias de los agentes debido a respuestas malformadas y caídas ocasionales de llama.cpp durante la sesión.
- La versión MTP proporciona un aumento de velocidad del 15–20% con una calidad comparable a la variante no-MTP.
El autor busca consejos de la comunidad para mejorar la estabilidad de la configuración y explotar adecuadamente el hardware para agentes de codificación locales.