Un utilisateur de Reddit demande des recommandations pour optimiser l'espace de contexte et l'efficacité computationnelle afin d'exécuter un grand modèle de langage local. L'auteur du message utilise un modèle Qwen 3.6-27B quantifié en Q4 sur une NVIDIA RTX 3090 avec 24 Go de VRAM.
- L'utilisateur signale une fenêtre de contexte totale d'environ 34 000 tokens.
- Un système de mémoire personnalisé utilisant HDBSCAN et une routine de journal consomme environ 24 000 tokens au démarrage.
- Tenter d'élargir la fenêtre de contexte à l'aide de la RAM système entraîne des performances considérablement plus lentes.
- L'objectif principal de l'utilisateur est l'assistance au codage local, mais il fait face à des contraintes en raison de ressources matérielles limitées.