RTX 5090の32GB VRAMでQwen3.5 122Bのパフォーマンスに関するユーザー報告

あるユーザーが、RTX 5090 GPUと64GBのRAMを備えたシステム上でllama-serverを使用してQwen3.5 122Bモデルの実行を試みています。報告されている推論速度は約6トークン/秒（tps）から始まり、生成过程中に徐々に約20 tpsまで上昇します。

ユーザーは、より高いトークン生成速度を達成するためにこのセットアップをさらに最適化する方法についてアドバイスを探しています。