Um usuário do Reddit estendeu o modelo Google Gemma 4 31B, que tem 60 camadas, para uma versão maior de 44B parâmetros contendo 88 camadas. Esta modificação foi realizada porque a Google não lançou uma versão densa maior do modelo para uso no Lyzr Architect.
- A expansão aumenta a contagem de camadas de 60 para 88 usando uma estratégia de escalonamento específica do Gemma inspirada pelo LLaMA Pro.
- As novas camadas foram inicializadas usando conhecimento do modelo base e padrões estruturais aprendidos durante o treinamento.
- Os resultados iniciais indicam que o modelo expandido retém a identidade original enquanto ganha capacidade adicional.
O autor observa que mais testes são necessários para observar como o modelo se comporta quando o contexto é empilhado.