레딧 사용자는 12GB VRAM을 갖춘 RTX 3060에서 RAM 오프로드를 사용하여 Q4 양자화된 Qwen3.6 27B 모델을 실행했으며, 추론 중 DRAM 대역폭이 약 30GB/s에 불과하다고 보고했습니다.
- 사용자는 18K 토큰 컨텍스트에서 초당 3.12개의 토큰 처리량을 달성했지만, 병목 현상이 LM Studio의 구현에 있는지 아니면 CPU 하드웨어에 있는지 의문을 제기했습니다.
- 더 작은 프롬프트와 6개의 CPU 스레드, Q8 KV 캐시, 37개의 GPU 오프로드 레이어를 사용하여 테스트한 결과, 대역폭은 30-35GB/s를 유지하면서 처리량이 초당 4.95개의 토큰으로 증가했습니다.