Un utilisateur de Reddit a étendu le modèle Google Gemma 4 31B, qui possède 60 couches, en une version plus grande de 44 milliards de paramètres contenant 88 couches. Cette modification a été entreprise car Google n'a pas publié de version dense plus grande du modèle pour une utilisation sur Lyzr Architect.

  • L'expansion augmente le nombre de couches de 60 à 88 en utilisant une stratégie de mise à l'échelle spécifique à Gemma, inspirée par LLaMA Pro.
  • Les nouvelles couches ont été initialisées en utilisant les connaissances du modèle de base et les motifs structurels appris lors de l'entraînement.
  • Les premiers résultats indiquent que le modèle étendu conserve son identité d'origine tout en gagnant une capacité supplémentaire.

L'auteur note que des tests supplémentaires sont nécessaires pour observer comment le modèle se comporte lorsque le contexte s'accumule.