Un utilisateur cherche des conseils pour maximiser la fenêtre de contexte pour le codage avec un LLM local

Un utilisateur de Reddit demande des recommandations pour optimiser l'espace de contexte et l'efficacité computationnelle afin d'exécuter un grand modèle de langage local. L'auteur du message utilise un modèle Qwen 3.6-27B quantifié en Q4 sur une NVIDIA RTX 3090 avec 24 Go de VRAM.

L'utilisateur signale une fenêtre de contexte totale d'environ 34 000 tokens.
Un système de mémoire personnalisé utilisant HDBSCAN et une routine de journal consomme environ 24 000 tokens au démarrage.
Tenter d'élargir la fenêtre de contexte à l'aide de la RAM système entraîne des performances considérablement plus lentes.
L'objectif principal de l'utilisateur est l'assistance au codage local, mais il fait face à des contraintes en raison de ressources matérielles limitées.