一位用户报告称,Qwen 27B(量化为 q6kxl)在配备 4090 和 3090 GPU 的系统上运行多令牌预测时,解码速度达到 50-90 tokens/s,预填充速度达到 1500-2200 tokens/s。该模型可靠地对接各种 API,并为单页应用、LaTeX 文档、解析器和爬虫生成可运行的代码。
- 模型:Qwen 27B(q6kxl 量化)
- 硬件:4090+3090 系统,配备 96GB VRAM
- 解码速度:50-90 tokens/s
- 预填充速度:1500-2200 tokens/s
- 能力:在保持现有架构进行更新的同时,能够处理中等规模的代码库。
该配置被强调为在该硬件上无需对工具或框架进行大量调整即可提供可靠连贯性和速度的首个本地模型。