Seorang pengguna Reddit mencari saran tentang meningkatkan pengaturan model bahasa besar lokal mereka, secara khusus menimbang trade-off antara kecepatan inferensi dan kemampuan pengetahuan umum.

  • Pengguna saat ini menjalankan Qwen3.6 35B sebagai asisten utama dan agen koding pada perangkat Strix Halo.
  • Mereka melaporkan mencapai sekitar 30-40 tok/s dengan jendela konteks 131k.
  • Pengguna merasa model saat ini kurang memiliki pengetahuan umum dasar dan berfungsi lebih seperti eksekutor daripada asisten.
  • Untuk mengatasi hal ini, mereka mempertimbangkan untuk beralih ke model Qwen3.5 122B yang lebih besar sambil mencoba mempertahankan kecepatan yang dapat diterima.