あるユーザーが、RTX 5090 GPUと64GBのRAMを備えたシステム上でllama-serverを使用してQwen3.5 122Bモデルの実行を試みています。報告されている推論速度は約6トークン/秒(tps)から始まり、生成过程中に徐々に約20 tpsまで上昇します。

  • ハードウェア構成: 32GB VRAMと64GBシステムRAMを備えたNVIDIA RTX 5090。
  • モデルバリアント: Qwen3.5-122B-A10BをQ5_K_Sとして量子化。
  • パフォーマンス指標: 生成の過程で~6 tpsから~20 tpsに上昇する初期スループット。
  • 推論設定: flash attention有効、16スレッド、コンテキスト長100,000トークンを使用してllama-serverを利用。

ユーザーは、より高いトークン生成速度を達成するためにこのセットアップをさらに最適化する方法についてアドバイスを探しています。