LLM Local no MacBook M5 Pro - Totalmente Novo nisso!

Um não-programador compartilha sua experiência configurando uma infraestrutura de Modelo de Linguagem Grande local em um MacBook M5 Max com 128GB de memória unificada. O usuário detalha sua pilha de software, seleções de modelos e objetivos para aprender IA enquanto estabelece um sistema estável e acessível remotamente.

Hardware: MacBook M5 Max (CPU de 18 núcleos, GPU de 40 núcleos, 128GB de memória unificada, 4TB de armazenamento) rodando OS Tahoe.
Pilha de Inferência: Docker Desktop com Docker Model Runner para acesso completo à GPU Metal e Open WebUI via Docker Compose.
Modelos: Gemma 4 (~12B) para uso diário e Qwen3 30B-A3B-Q4_k_m para pesquisa profunda.
Implementação de RAG: embeddings do SentenceTransformers com múltiplas coleções de conhecimento baseadas em tópicos contendo arquivos markdown escritos por IA e PDFs do fabricante.
Ferramentas Adicionais: DrawThings para geração de imagem/vídeo, MacWhisper Pro para transcrição e Kokoro TTS para saída de voz local.

O autor visa transicionar do uso de serviços em nuvem como o Claude Pro para utilizar sua configuração local com mais frequência enquanto continua a aprender sobre segurança de IA e sistemas agênticos.