Seorang pengguna mencoba menjalankan model Qwen3.5 122B menggunakan llama-server pada sistem yang dilengkapi GPU RTX 5090 dan RAM 64GB. Kecepatan inferensi yang dilaporkan dimulai dari sekitar 6 token per detik (tps) dan secara bertahap meningkat menjadi sekitar 20 tps selama proses generasi.

  • Konfigurasi perangkat keras: NVIDIA RTX 5090 dengan VRAM 32GB dan RAM sistem 64GB.
  • Varian model: Qwen3.5-122B-A10B yang dikuantisasi sebagai Q5_K_S.
  • Metrik kinerja: Throughput awal sekitar 6 tps meningkat menjadi sekitar 20 tps sepanjang proses generasi.
  • Pengaturan inferensi: Menggunakan llama-server dengan flash attention diaktifkan, 16 thread, dan panjang konteks 100.000 token.

Pengguna mencari saran tentang cara mengoptimalkan lebih lanjut pengaturan ini untuk mencapai kecepatan generasi token yang lebih tinggi.