Пользователь продемонстрировал, что модель Gemma-4-31B-it может обрабатывать контекстное окно из 80 000 токенов на GPU RTX 5090 с помощью llama.cpp, что является значительным увеличением по сравнению с типичным лимитом в 35k.

Для корректной работы конфигурации требуются специальные флаги Docker, включая установку `GGML_CUDA_NO_PINNED=1` и включение `--backend-sampling --parallel 1`. Настройка также использует `--flash-attn on` и явно задает размер контекста через `--ctx-size 80000`.

Этот метод позволяет пользователям расширять длину контекста для моделей Gemma-4 за пределы стандартных ограничений путем применения настроек, ранее отмеченных для других архитектур.