Optimizando llama.cpp + Qwen 27B en RTX PRO 6000 Blackwell para agentes de codificación

Un usuario informa estar ejecutando Qwen3.6 27B MTP con llama.cpp en una estación de trabajo RTX PRO 6000 Blackwell para reducir la dependencia de Claude, señalando que el modelo es comparable a Sonnet pero sufre de problemas de estabilidad durante las sesiones de codificación.

La configuración utiliza Windows 11, la extensión VS Code Copilot y 4 agentes paralelos con contexto completo (1M tokens).
El uso de VRAM es de aproximadamente 83 GB de 97 GB, con el modelo compilado usando banderas CUDA específicas para la arquitectura Blackwell.
Los problemas de estabilidad incluyen paradas aleatorias de los agentes debido a respuestas malformadas y caídas ocasionales de llama.cpp durante la sesión.
La versión MTP proporciona un aumento de velocidad del 15–20% con una calidad comparable a la variante no-MTP.

El autor busca consejos de la comunidad para mejorar la estabilidad de la configuración y explotar adecuadamente el hardware para agentes de codificación locales.