Redditのユーザーが、12GB VRAMのRTX 3060上でRAMオフロードを使用してQ4量子化されたQwen3.6 27Bモデルを実行し、推論中にDRAM帯域幅が約30GB/sにとどまっていると報告しています。
- ユーザーは18Kトークンのコンテキストで3.12トークン/秒のスループットを達成しましたが、ボトルネックがLM Studioの実装にあるのかCPUハードウェアにあるのか疑問視しています。
- より小さなプロンプトと6つのCPUスレッド、Q8 KVキャッシュ、37層のGPUオフロードを使用してテストしたところ、帯域幅は30-35GB/sを維持したままスループットが4.95トークン/秒に向上しました。