Пользователь Reddit просит рекомендации по оптимизации контекстного пространства и вычислительной эффективности для запуска локальной большой языковой модели. Автор использует модель Qwen 3.6 27B, квантованную до Q4 на NVIDIA RTX 3090 с 24 ГБ VRAM.
- Пользователь сообщает о полном контекстном окне примерно в 34 000 токенов.
- Пользовательская система памяти, использующая HDBSCAN и дневниковую процедуру, потребляет около 24 000 токенов при запуске.
- Попытки расширить контекстное окно с помощью системной RAM приводят к значительному замедлению производительности.
- Основная цель пользователя — локальная помощь в программировании, но он сталкивается с ограничениями из-за ограниченных аппаратных ресурсов.