Seorang pengguna membagikan metrik kinerja terperinci untuk menjalankan model Qwen3.6 27B pada sistem RTX 5090, AMD 9800X3D, dan RAM 64GB menggunakan llama.cpp.
- Penyesuaian melibatkan cache KV q8, konteks 192k, MTP draft=10, spec-draft-p-min=0.5, dan batch/ubatch 512.
- Analisis dari 6.454 sampel selama sesi pemrograman agentic campuran menunjukkan throughput rata-rata 140,7 tok/s dan median 134,9 tok/s.
- Kinerja puncak mencapai bucket 120-130 tok/s dengan ekor panjang yang memanjang hingga 233 tok/s.
- Penulis mencatat bahwa penanganan cache perhatian hibrida/SWA dalam llama.cpp belum sempurna untuk model ini, menyebabkan peringatan pemrosesan ulang prompt.
Postingan tersebut menyoroti bahwa angka rata-rata dapat menyembunyikan variasi kinerja, memberikan distribusi kecepatan yang nyata daripada hanya angka utama.