あるRedditユーザーが、ローカルの大規模言語モデルを実行するためのコンテキスト領域と計算効率の最適化に関する推奨事項を求めています。投稿者は、VRAM 24GBを搭載したNVIDIA RTX 3090上で、Qwen 3.6-27BモデルをQ4に量子化して使用しています。
- ユーザーは総コンテキストウィンドウが約34,000トークンであると報告しています。
- HDBSCANとダイアリールーチンを利用したカスタムメモリシステムは、起動時に約24,000トークンを消費します。
- システムRAMを使用してコンテキストウィンドウを拡張しようとすると、パフォーマンスが大幅に低下します。
- ユーザーの主な目的はローカルでのコーディング支援ですが、限られたハードウェアリソースにより制約を受けています。