media r/LocalLLaMA · 2 小时前 · 来源： 3 天前 · open_models

用户寻求在本地LLM编程中最大化上下文窗口的建议

译自 English → 中文

一位Reddit用户询问关于优化运行本地大语言模型的上下文空间和计算效率的建议。该发帖者正在NVIDIA RTX 3090（24GB显存）上使用量化为Q4的Qwen 3.6 27B模型。

用户报告总上下文窗口约为34,000个token。
使用HDBSCAN和日记例程的自定义内存系统在启动时消耗约24,000个token。
尝试使用系统RAM扩展上下文窗口会导致性能显著下降。
用户的主要目标是本地编码辅助，但由于硬件资源有限而面临约束。

重要性 0/3 r/LocalLLaMA Inference efficiency