Um usuário do Reddit expandiu o modelo Gemma4-31B do Google para aproximadamente 47 bilhões de parâmetros ao aumentar a contagem de camadas de 60 para 88. O processo envolveu expansão com inicialização de identidade seguindo a abordagem LLaMA Pro, seguida de ajuste fino em dados jurídicos e STEM coreanos.

  • Expandiu o Gemma4-31B de 60 para 80 camadas usando identity-init com uma correção específica de layer_scalar.
  • Realizou uma segunda expansão por duplicação de blocos de 80 para 88 camadas no modelo já ajustado fino.
  • Ajustou fino o modelo resultante de ~47B parâmetros em conjuntos de dados jurídicos e STEM coreanos.
  • Verificou que as camadas de atenção completa duplicadas contribuíram ativamente para o treinamento ao invés de permanecerem inativas.

O autor compartilha os detalhes da arquitetura e o cartão do modelo no Hugging Face, notando promessa inicial para casos de uso jurídicos e STEM enquanto busca ajuda da comunidade para melhorar capacidades de codificação e chamada de ferramentas.