Gemma-4-31B-it admite contexto de 80k en RTX 5090 con llama.cpp

Un usuario demostró que el modelo Gemma-4-31B-it puede manejar una ventana de contexto de 80.000 tokens en una GPU RTX 5090 utilizando llama.cpp, un aumento significativo respecto al límite típico de 35k.

La configuración requiere banderas específicas de Docker para funcionar correctamente, incluyendo establecer `GGML_CUDA_NO_PINNED=1` y habilitar `--backend-sampling --parallel 1`. La configuración también utiliza `--flash-attn on` y establece explícitamente el tamaño del contexto mediante `--ctx-size 80000`.

Este método permite a los usuarios extender la longitud del contexto para los modelos Gemma-4 más allá de las restricciones estándar aplicando ajustes de configuración previamente notados para otras arquitecturas.