Un usuario de Reddit pide recomendaciones sobre cómo optimizar el espacio de contexto y la eficiencia computacional para ejecutar un modelo de lenguaje grande local. El autor está utilizando un modelo Qwen 3.6 27B cuantizado a Q4 en una NVIDIA RTX 3090 con 24 GB de VRAM.
- El usuario informa de una ventana de contexto total de aproximadamente 34,000 tokens.
- Un sistema de memoria personalizado que utiliza HDBSCAN y una rutina de diario consume alrededor de 24,000 tokens al inicio.
- Intentar expandir la ventana de contexto usando RAM del sistema resulta en un rendimiento significativamente más lento.
- El objetivo principal del usuario es la asistencia local para codificación, pero enfrenta restricciones debido a recursos de hardware limitados.