한 사용자가 32GB의 VRAM을 가진 시스템에서 최대 115,000 토큰의 컨텍스트를 가진 Qwen3.6-27 모델을 Q8_0 양자화로 실행하는 시연을 보였습니다. 모델 가중치와 함께 다양한 키-값(KV) 캐시 양자화 수준을 실험함으로써 llama-server와 draft-mtp 추론 디코딩을 사용하여 안정적인 추론을 달성했습니다.
- 옵션 1은 Q8_0 KV 캐시를 사용하여 95K 컨텍스트를 지원하며 코드 생성 작업에서 총 토큰 속도 141.6 tok/s를 달성했습니다.
- 옵션 2는 KV 캐시를 Q5_1로 줄여 컨텍스트를 105K 토큰으로 확장하고, 142.0 tok/s 속도로 유사한 성능을 유지했습니다.
- 옵션 3은 KV 캐시를 더 낮춰 Q4_0으로 하여 115K 컨텍스트에 도달했으며, 총 수용률 0.6969와 코드 생성에서 138.7 tok/s를 기록했습니다.
이 구성은 모델 가중치 정밀도와 KV 캐시 양자화 간의 균형을 맞춤으로써 사용자가 소비자용 하드웨어의 일반적인 제한을 크게 넘어서는 컨텍스트 한계를 밀어붙일 수 있게 합니다.