Seorang pengguna melaporkan bahwa Qwen 27B, yang dikuantisasi ke q6kxl dan berjalan dengan prediksi multi-token pada sistem dengan GPU 4090 dan 3090, mencapai kecepatan decode 50-90 token/detik dan kecepatan pre-fill 1500-2200 token/detik. Model ini secara andal berinteraksi dengan berbagai API dan menghasilkan kode fungsional untuk aplikasi satu halaman, dokumen LaTeX, parser, dan crawler.
- Model: Qwen 27B (kuantisasi q6kxl)
- Perangkat keras: sistem 4090+3090 dengan VRAM 96GB
- Kecepatan decode: 50-90 token/detik
- Kecepatan pre-fill: 1500-2200 token/detik
- Kemampuan: Menelan basis kode berukuran layak sambil mempertahankan skema yang ada untuk pembaruan.
Konfigurasi ini disorot sebagai model lokal pertama yang menawarkan koherensi dan kecepatan yang andal pada perangkat keras ini tanpa memerlukan penyetelan ekstensif pada alat atau harness.