あるユーザーは、Gemma-4-31B-itモデルがllama.cppを使用してRTX 5090 GPU上で80,000トークンのコンテキストウィンドウを処理できることを実証しました。これは通常の35kの制限から大幅な増加です。

この構成には、`GGML_CUDA_NO_PINNED=1`を設定し、`--backend-sampling --parallel 1`を有効にするなど、特定のDockerフラグが必要です。セットアップでは、`--flash-attn on`を使用し、`--ctx-size 80000`でコンテキストサイズを明示的に設定します。

この方法により、ユーザーは他のアーキテクチャに対して以前に指摘された構成の微調整を適用することで、Gemma-4モデルのコンテキスト長を標準的な制約を超えて拡張できます。