media r/LocalLLaMA · 2時間前 · ソース: 3日前 · open_models

ユーザーはローカルLLMのコーディングにおいてコンテキストウィンドウを最大化する方法を求めている

翻訳元 English → 日本語

あるRedditユーザーが、ローカルの大規模言語モデルを実行するためのコンテキスト領域と計算効率の最適化に関する推奨事項を求めています。投稿者は、VRAM 24GBを搭載したNVIDIA RTX 3090上で、Qwen 3.6-27BモデルをQ4に量子化して使用しています。

ユーザーは総コンテキストウィンドウが約34,000トークンであると報告しています。
HDBSCANとダイアリールーチンを利用したカスタムメモリシステムは、起動時に約24,000トークンを消費します。
システムRAMを使用してコンテキストウィンドウを拡張しようとすると、パフォーマンスが大幅に低下します。
ユーザーの主な目的はローカルでのコーディング支援ですが、限られたハードウェアリソースにより制約を受けています。

重要度 0/3 r/LocalLLaMA Inference efficiency

原文を読む