한 사용자가 RTX 5090 GPU와 64GB RAM을 갖춘 시스템에서 llama-server를 사용해 Qwen3.5 122B 모델을 실행하려고 시도하고 있습니다. 보고된 추론 속도는 초당 약 6토큰(tps)으로 시작해 생성 과정에서 점차 초당 약 20 tps까지 증가합니다.
- 하드웨어 구성: 32GB VRAM과 64GB 시스템 RAM을 갖춘 NVIDIA RTX 5090.
- 모델 변형: Qwen3.5-122B-A10B를 Q5_K_S로 양자화.
- 성능 지표: 생성 과정 동안 초당 ~6 tps에서 ~20 tps로 증가하는 초기 처리량.
- 추론 설정: flash attention 활성화, 16개 스레드, 100,000 토큰의 컨텍스트 길이를 사용하는 llama-server 활용.
사용자는 더 높은 토큰 생성 속도를 달성하기 위해 이 환경을 추가로 최적화하는 방법에 대한 조언을 구하고 있습니다.