Как я использую локальные модели в реальной разработке

Автор делится практической настройкой для использования локальных больших языковых моделей на скромном оборудовании, а именно на ноутбуке с 32 ГБ ОЗУ и NVIDIA RTX 4070 с 8 ГБ видеопамяти. Основная стратегия заключается в запуске модели Qwen3.6-35B-A3B локально в качестве «малого кодингового агента», а сложные задачи планирования перекладываются на облачный экземпляр GLM 5.2.

Локальная модель Qwen3.6-35B-A3B стабильно работает со скоростью около 15 токенов в секунду от батареи, выступая как ограниченный кодинговый агент для конкретных задач.
Используется гибридная архитектура с разделением 90% локально и 10% в облаке, что обходится менее чем в $1 за генерацию GLM 5.2 детальных планов задач для выполнения локальной моделью.
Пользователь применяет pi-coding-agent и llama-server (из llama.cpp) для запуска локального инференса, просматривая все изменения кода, созданные агентом.
Пробелы в знаниях устраняются через постмортемы с моделью, добавление советов в файл README, который агент использует в последующих сессиях для улучшения качества кода.

Этот подход позволяет получать полезную помощь в программировании на обычном оборудовании, сочетая экономичность локального инференса с возможностями рассуждения более дешевой облачной модели для высокоуровневого планирования.