LLM local sur MacBook M5 Pro - Complètement débutant !

Un non-programmeur partage son expérience de mise en place d'une infrastructure de modèle linguistique large (LLM) local sur un MacBook M5 Max avec 128 Go de mémoire unifiée. L'utilisateur détaille sa pile logicielle, ses sélections de modèles et ses objectifs pour apprendre l'IA tout en établissant un système stable et accessible à distance.

Matériel : MacBook M5 Max (CPU 18 cœurs, GPU 40 cœurs, 128 Go de mémoire unifiée, stockage 4 To) fonctionnant sous OS Tahoe.
Pile d'inférence : Docker Desktop avec Docker Model Runner pour un accès complet au GPU Metal et Open WebUI via Docker Compose.
Modèles : Gemma 4 (~12B) pour l'usage quotidien et Qwen3 30B-A3B-Q4_k_m pour la recherche approfondie.
Implémentation RAG : Embeddings SentenceTransformers avec plusieurs collections de connaissances thématiques contenant des fichiers markdown écrits par l'IA et des PDF fabricants.
Outils supplémentaires : DrawThings pour la génération d'images/vidéos, MacWhisper Pro pour la transcription et Kokoro TTS pour la sortie vocale locale.

L'auteur vise à passer des services cloud comme Claude Pro à une utilisation plus fréquente de son installation locale tout en continuant à apprendre sur la sécurité de l'IA et les systèmes agents.