RTX 3060でQwen3.6 27BのRAMオフロードボトルネックを調査

Redditのユーザーが、12GB VRAMのRTX 3060上でRAMオフロードを使用してQ4量子化されたQwen3.6 27Bモデルを実行し、推論中にDRAM帯域幅が約30GB/sにとどまっていると報告しています。

ユーザーは18Kトークンのコンテキストで3.12トークン/秒のスループットを達成しましたが、ボトルネックがLM Studioの実装にあるのかCPUハードウェアにあるのか疑問視しています。
より小さなプロンプトと6つのCPUスレッド、Q8 KVキャッシュ、37層のGPUオフロードを使用してテストしたところ、帯域幅は30-35GB/sを維持したままスループットが4.95トークン/秒に向上しました。