media r/LocalLLaMA · 1시간 전 · 출처: 5일 전 · open_models

레딧 사용자가 64GB VRAM 코딩을 위해 Qwen 3.5 122b-a10b 선택

번역 English → 한국어

한 레딧 사용자는 64GB VRAM 환경에서 코딩 작업을 위해 Qwen 3.5 122b-a10b 모델(UD-IQ4_NL)의 unsloth 버전을 채택했다고 보고했습니다.

이 모델은 100k bf16 컨텍스트 창을 제공하며 초당 약 30 토큰 속도로 실행됩니다.
하드웨어 제약 조건을 수용하기 위해 CPU/RAM에는 일부 레이어만 로드됩니다.
사용자는 특정 필요에 따라 Qwen 3.6 모델도 활용하지만, 122b-a10b 변형을 일상적인 주력 모델로 간주합니다.

중요도 1/3 r/LocalLLaMA Code generation Inference efficiency