Um usuário do Reddit pede recomendações sobre como otimizar o espaço de contexto e a eficiência computacional para executar um modelo de linguagem grande local. O autor está usando um modelo Qwen 3.6 27B quantizado para Q4 em uma NVIDIA RTX 3090 com 24 GB de VRAM.
- O usuário relata uma janela de contexto total de aproximadamente 34.000 tokens.
- Um sistema de memória personalizado que utiliza HDBSCAN e uma rotina de diário consome cerca de 24.000 tokens na inicialização.
- Tentar expandir a janela de contexto usando RAM do sistema resulta em desempenho significativamente mais lento.
- O objetivo principal do usuário é assistência local para codificação, mas ele enfrenta restrições devido a recursos de hardware limitados.