Qwen3.6 27B di RTX 5090 mencapai rata-rata 140 tok/s dengan pengaturan llama.cpp yang disesuaikan

Seorang pengguna membagikan metrik kinerja terperinci untuk menjalankan model Qwen3.6 27B pada sistem RTX 5090, AMD 9800X3D, dan RAM 64GB menggunakan llama.cpp.

Penyesuaian melibatkan cache KV q8, konteks 192k, MTP draft=10, spec-draft-p-min=0.5, dan batch/ubatch 512.
Analisis dari 6.454 sampel selama sesi pemrograman agentic campuran menunjukkan throughput rata-rata 140,7 tok/s dan median 134,9 tok/s.
Kinerja puncak mencapai bucket 120-130 tok/s dengan ekor panjang yang memanjang hingga 233 tok/s.
Penulis mencatat bahwa penanganan cache perhatian hibrida/SWA dalam llama.cpp belum sempurna untuk model ini, menyebabkan peringatan pemrosesan ulang prompt.

Postingan tersebut menyoroti bahwa angka rata-rata dapat menyembunyikan variasi kinerja, memberikan distribusi kecepatan yang nyata daripada hanya angka utama.