Um usuário demonstrou que o modelo Gemma-4-31B-it pode lidar com uma janela de contexto de 80.000 tokens em uma GPU RTX 5090 usando llama.cpp, um aumento significativo em relação ao limite típico de 35k.

A configuração requer flags específicas do Docker para funcionar corretamente, incluindo definir `GGML_CUDA_NO_PINNED=1` e habilitar `--backend-sampling --parallel 1`. A configuração também utiliza `--flash-attn on` e define explicitamente o tamanho do contexto via `--ctx-size 80000`.

Este método permite que os usuários estendam o comprimento do contexto para os modelos Gemma-4 além das restrições padrão aplicando ajustes de configuração anteriormente notados para outras arquiteturas.