llama.cpp 설정을 튜닝하여 RTX 5090에서 Qwen3.6 27B를 실행하면 평균 140 tok/s 달성

한 사용자가 llama.cpp를 사용하여 RTX 5090, AMD 9800X3D 및 64GB RAM 시스템에서 Qwen3.6 27B 모델을 실행한 상세한 성능 지표를 공유했습니다.

튜닝에는 q8 KV 캐시, 192k 컨텍스트, MTP draft=10, spec-draft-p-min=0.5 및 배치/ubatch 512가 포함됩니다.
혼합 에이전트 코딩 세션의 6,454개 샘플을 분석한 결과 평균 처리량은 140.7 tok/s, 중앙값은 134.9 tok/s였습니다.
최대 성능은 120-130 tok/s 범위에 도달했으며 233 tok/s까지 긴 꼬리를 가집니다.
작성자는 llama.cpp의 하이브리드 어텐션/SWA 캐시 처리가 아직 이 모델에 완벽하지 않아 프롬프트 재처리 경고가 발생한다고 언급했습니다.

이 게시물은 평균치가 성능 변동을 숨길 수 있음을 강조하며, 단순한 헤드라인 수치 대신 속도의 실제 분포를 제공합니다.