一位用户演示了 Gemma-4-31B-it 模型可以在使用 llama.cpp 的 RTX 5090 GPU 上处理 80,000 个 token 的上下文窗口,这比典型的 35k 限制有了显著增加。

该配置需要特定的 Docker 标志才能正常工作,包括设置 `GGML_CUDA_NO_PINNED=1` 并启用 `--backend-sampling --parallel 1`。设置还使用 `--flash-attn on` 并通过 `--ctx-size 80000` 显式设置上下文大小。

此方法允许用户通过应用之前针对其他架构 noted 的配置调整,将 Gemma-4 模型的上下文长度扩展到标准限制之外。