media r/LocalLLaMA · 1 小时前 · 来源： 4 天前 · open_models

用户报告在配备32GB显存的RTX 5090上运行Qwen3.5 122B的性能

译自 English → 中文

一名用户正在尝试使用 llama-server 在配备 RTX 5090 GPU 和 64GB RAM 的系统上运行 Qwen3.5 122B 模型。报告的推理速度从大约每秒 6 个令牌（tps）开始，并在生成过程中逐渐增加到约 20 tps。

硬件配置：NVIDIA RTX 5090，配备 32GB VRAM 和 64GB 系统 RAM。
模型变体：Qwen3.5-122B-A10B，量化为 Q5_K_S。
性能指标：初始吞吐量约为 ~6 tps，在生成过程中上升至约 ~20 tps。
推理设置：使用 llama-server，启用 flash attention，16 个线程，上下文长度为 100,000 个令牌。

该用户正在寻求建议，以进一步优化此设置，从而实现更高的令牌生成速度。

重要性 1/3 r/LocalLLaMA Hardware & chips Inference efficiency