Usuario busca consejos para maximizar la ventana de contexto para LLM local de codificación

Un usuario de Reddit pide recomendaciones sobre cómo optimizar el espacio de contexto y la eficiencia computacional para ejecutar un modelo de lenguaje grande local. El autor está utilizando un modelo Qwen 3.6 27B cuantizado a Q4 en una NVIDIA RTX 3090 con 24 GB de VRAM.

El usuario informa de una ventana de contexto total de aproximadamente 34,000 tokens.
Un sistema de memoria personalizado que utiliza HDBSCAN y una rutina de diario consume alrededor de 24,000 tokens al inicio.
Intentar expandir la ventana de contexto usando RAM del sistema resulta en un rendimiento significativamente más lento.
El objetivo principal del usuario es la asistencia local para codificación, pero enfrenta restricciones debido a recursos de hardware limitados.