Локальная LLM на MacBook M5 Pro — я новичок в этом!

Непрограммист делится опытом настройки локальной инфраструктуры больших языковых моделей на MacBook M5 Max с 128 ГБ объединённой памяти. Пользователь подробно описывает свой программный стек, выбор моделей и цели изучения ИИ при создании стабильной системы с удалённым доступом.

Оборудование: MacBook M5 Max (18-ядерный CPU, 40-ядерный GPU, 128 ГБ объединённой памяти, 4 ТБ хранилища) под управлением OS Tahoe.
Стек инференса: Docker Desktop с Docker Model Runner для полного доступа к Metal GPU и Open WebUI через Docker Compose.
Модели: Gemma 4 (~12B) для повседневного использования и Qwen3 30B-A3B-Q4_k_m для глубоких исследований.
Реализация RAG: встраивания SentenceTransformers с несколькими коллекциями знаний по темам, содержащими markdown-файлы, написанные ИИ, и PDF от производителей.
Дополнительные инструменты: DrawThings для генерации изображений/видео, MacWhisper Pro для транскрипции и Kokoro TTS для локального голосового вывода.

Автор стремится чаще использовать свою локальную настройку вместо облачных сервисов вроде Claude Pro, продолжая изучать безопасность ИИ и агентные системы.