Оптимизация llama.cpp + Qwen 27B на RTX PRO 6000 Blackwell для кодовых агентов

Пользователь сообщает о запуске Qwen3.6 27B MTP с llama.cpp на рабочей станции RTX PRO 6000 Blackwell, чтобы снизить зависимость от Claude, отмечая, что модель сопоставима с Sonnet, но страдает от проблем со стабильностью во время кодовых сессий.

Конфигурация использует Windows 11, расширение VS Code Copilot и 4 параллельных агента с полным контекстом (1M токенов).
Использование VRAM составляет примерно 83 ГБ из 97 ГБ, модель скомпилирована с использованием специфических флагов CUDA для архитектуры Blackwell.
Проблемы со стабильностью включают случайные остановки агентов из-за некорректных ответов и периодические сбои llama.cpp во время сессии.
Версия MTP обеспечивает увеличение скорости на 15–20% при качестве, сопоставимом с вариантом без MTP.

Автор просит совета у сообщества по улучшению стабильности конфигурации и правильной эксплуатации оборудования для локальных кодовых агентов.