Un utilisateur de Reddit a étendu le modèle Gemma4-31B de Google à environ 47 milliards de paramètres en augmentant le nombre de couches de 60 à 88. Le processus a impliqué une expansion par identity-init suivant l'approche LLaMA Pro, suivie d'un fine-tuning sur des données juridiques et STEM coréennes.

  • Expansion de Gemma4-31B de 60 à 80 couches en utilisant identity-init avec un correctif layer_scalar spécifique.
  • Réalisation d'une seconde expansion par duplication de blocs de 80 à 88 couches sur le modèle déjà fine-tuné.
  • Fine-tuning du modèle résultant d'environ 47B de paramètres sur des jeux de données juridiques et STEM coréens.
  • Vérification que les couches d'attention complète dupliquées ont activement contribué à l'entraînement au lieu de rester inactives.

L'auteur partage les détails de l'architecture et la fiche modèle sur Hugging Face, notant un potentiel précoce pour les cas d'utilisation juridiques et STEM tout en cherchant l'aide de la communauté pour améliorer les capacités de codage et d'appel d'outils.