Пользователь ищет советы по увеличению контекстного окна для локальной LLM при программировании

Пользователь Reddit просит рекомендации по оптимизации контекстного пространства и вычислительной эффективности для запуска локальной большой языковой модели. Автор использует модель Qwen 3.6 27B, квантованную до Q4 на NVIDIA RTX 3090 с 24 ГБ VRAM.

Пользователь сообщает о полном контекстном окне примерно в 34 000 токенов.
Пользовательская система памяти, использующая HDBSCAN и дневниковую процедуру, потребляет около 24 000 токенов при запуске.
Попытки расширить контекстное окно с помощью системной RAM приводят к значительному замедлению производительности.
Основная цель пользователя — локальная помощь в программировании, но он сталкивается с ограничениями из-за ограниченных аппаратных ресурсов.