あるRedditユーザーは、ローカル大規模言語モデルのセットアップをアップグレードするためのアドバイスを探しており、推論速度と一般知識能力の間のトレードオフを検討しています。

  • ユーザーは現在、Strix Haloデバイス上でQwen3.6 35Bを主要なアシスタントおよびコーディングエージェントとして実行しています。
  • 131kのコンテキストウィンドウで、約30〜40 tok/sの速度を達成していると報告しています。
  • ユーザーは、現在のモデルが基本的な一般知識に欠け、アシスタントというよりも執行者のように機能していると感じています。
  • これに対処するため、許容できる速度を維持しながら、より大きなQwen3.5 122Bモデルへの移行を検討しています。