Un utilisateur a démontré que le modèle Gemma-4-31B-it peut gérer une fenêtre de contexte de 80 000 tokens sur un GPU RTX 5090 en utilisant llama.cpp, une augmentation significative par rapport à la limite typique de 35k.
La configuration nécessite des indicateurs Docker spécifiques pour fonctionner correctement, notamment la définition de `GGML_CUDA_NO_PINNED=1` et l'activation de `--backend-sampling --parallel 1`. La configuration utilise également `--flash-attn on` et définit explicitement la taille du contexte via `--ctx-size 80000`.
Cette méthode permet aux utilisateurs d'étendre la longueur du contexte pour les modèles Gemma-4 au-delà des contraintes standard en appliquant des ajustements de configuration précédemment notés pour d'autres architectures.