あるユーザーが、32GBのVRAMを持つシステム上で、最大115,000トークンのコンテキストを持つQwen3.6-27モデルをQ8_0量子化で実行するデモンストレーションを行いました。モデルの重み alongside 異なるキーバリュー(KV)キャッシュの量子化レベルを実験することで、llama-serverとdraft-mtp推測的デコーディングを使用して安定した推論を実現しました。
- オプション1はQ8_0 KVキャッシュを使用して95Kコンテキストをサポートし、コード生成タスクで合計トークン速度141.6 tok/sを達成しました。
- オプション2はKVキャッシュをQ5_1に減らしてコンテキストを105Kトークンに拡張し、142.0 tok/sの速度で同様のパフォーマンスを維持しました。
- オプション3はさらにKVキャッシュをQ4_0に下げて115Kコンテキストに到達し、合計受容率0.6969およびコード生成での138.7 tok/sとなりました。
この構成により、ユーザーはモデルの重み精度とKVキャッシュ量子化のバランスを取ることで、コンシューマーグレードのハードウェア上の典型的な制約を大幅に超えるコンテキスト限界を押し広げることができます。