llama.cpp를 사용한 RTX 5090에서 Gemma-4-31B-it의 80k 컨텍스트 지원

한 사용자가 llama.cpp를 사용하여 RTX 5090 GPU에서 Gemma-4-31B-it 모델이 80,000 토큰의 컨텍스트 창을 처리할 수 있음을 시연했습니다. 이는 일반적인 35k 제한보다 상당한 증가입니다.

이 구성은 `GGML_CUDA_NO_PINNED=1` 설정 및 `--backend-sampling --parallel 1` 활성화 등 특정 Docker 플래그가 필요합니다. 또한 설정은 `--flash-attn on`을 사용하고 `--ctx-size 80000`을 통해 컨텍스트 크기를 명시적으로 설정합니다.

이 방법을 사용하면 사용자는 다른 아키텍처에 대해 이전에 언급된 구성 튜닝을 적용하여 Gemma-4 모델의 컨텍스트 길이를 표준 제약 사항을 넘어 확장할 수 있습니다.