一名用户正在尝试使用 llama-server 在配备 RTX 5090 GPU 和 64GB RAM 的系统上运行 Qwen3.5 122B 模型。报告的推理速度从大约每秒 6 个令牌(tps)开始,并在生成过程中逐渐增加到约 20 tps。
- 硬件配置:NVIDIA RTX 5090,配备 32GB VRAM 和 64GB 系统 RAM。
- 模型变体:Qwen3.5-122B-A10B,量化为 Q5_K_S。
- 性能指标:初始吞吐量约为 ~6 tps,在生成过程中上升至约 ~20 tps。
- 推理设置:使用 llama-server,启用 flash attention,16 个线程,上下文长度为 100,000 个令牌。
该用户正在寻求建议,以进一步优化此设置,从而实现更高的令牌生成速度。