Пользователь сообщает о запуске Qwen3.6 27B MTP с llama.cpp на рабочей станции RTX PRO 6000 Blackwell, чтобы снизить зависимость от Claude, отмечая, что модель сопоставима с Sonnet, но страдает от проблем со стабильностью во время кодовых сессий.
- Конфигурация использует Windows 11, расширение VS Code Copilot и 4 параллельных агента с полным контекстом (1M токенов).
- Использование VRAM составляет примерно 83 ГБ из 97 ГБ, модель скомпилирована с использованием специфических флагов CUDA для архитектуры Blackwell.
- Проблемы со стабильностью включают случайные остановки агентов из-за некорректных ответов и периодические сбои llama.cpp во время сессии.
- Версия MTP обеспечивает увеличение скорости на 15–20% при качестве, сопоставимом с вариантом без MTP.
Автор просит совета у сообщества по улучшению стабильности конфигурации и правильной эксплуатации оборудования для локальных кодовых агентов.