Performa lokal Qwen 27B pada perangkat konsumen

Seorang pengguna melaporkan bahwa Qwen 27B, yang dikuantisasi ke q6kxl dan berjalan dengan prediksi multi-token pada sistem dengan GPU 4090 dan 3090, mencapai kecepatan decode 50-90 token/detik dan kecepatan pre-fill 1500-2200 token/detik. Model ini secara andal berinteraksi dengan berbagai API dan menghasilkan kode fungsional untuk aplikasi satu halaman, dokumen LaTeX, parser, dan crawler.

Model: Qwen 27B (kuantisasi q6kxl)
Perangkat keras: sistem 4090+3090 dengan VRAM 96GB
Kecepatan decode: 50-90 token/detik
Kecepatan pre-fill: 1500-2200 token/detik
Kemampuan: Menelan basis kode berukuran layak sambil mempertahankan skema yang ada untuk pembaruan.

Konfigurasi ini disorot sebagai model lokal pertama yang menawarkan koherensi dan kecepatan yang andal pada perangkat keras ini tanpa memerlukan penyetelan ekstensif pada alat atau harness.