한 사용자는 4090 및 3090 GPU가 장착된 시스템에서 q6kxl로 양자화되고 멀티 토큰 예측을 실행하는 Qwen 27B가 디코드 속도 50-90토큰/초, 프리필 속도 1500-2200토큰/초를 달성했다고 보고했습니다. 이 모델은 다양한 API와 안정적으로 인터페이스하며 단일 페이지 앱, LaTeX 문서, 파서 및 크롤러용 기능적 코드를 생성합니다.
- 모델: Qwen 27B (q6kxl 양자화)
- 하드웨어: VRAM 96GB의 4090+3090 시스템
- 디코드 속도: 50-90토큰/초
- 프리필 속도: 1500-2200토큰/초
- 기능: 기존 스키마를 유지하면서 적절한 크기의 코드베이스를 처리 가능.
이 구성은 도구 또는 하네스에 대한 광범위한 튜닝 없이도 이 하드웨어에서 신뢰할 수 있는 일관성과 속도를 제공하는 첫 번째 로컬 모델로 주목받고 있습니다.