Un développeur expose un plan pour reconstruire le modèle Gemma 4 31B en réduisant son nombre de paramètres à environ 26B tout en visant une performance améliorée. Le projet implique des changements d'architecture, des techniques d'entraînement spécifiques et la curation de jeux de données pour créer un modèle plus petit et plus efficace.

  • Supprimer la couche 3, identifiée comme la plus faible des cinq couches d'attention à fenêtre glissante (SWA).
  • Redimensionner les portées d'attention SWA à 1024/2048/4096/8.1k tokens suivies d'une couche globale.
  • Implémenter des "Attention based Residual Networks" dans les couches globales pour améliorer le flux d'informations et la cohérence globale.
  • Utiliser les logits TopK (12 ou 20) du modèle original comme cibles pour le réentraînement tout en gelant le haut et le bas du réseau.
  • Réduire le nombre total de paramètres de ~30.81B à ~26.02B grâce à ces modifications structurelles.

L'auteur vise à obtenir de meilleures capacités de contexte long et des performances globales dans une empreinte plus réduite, avec l'intention potentielle de déverrouiller la phase d'entraînement "pensée" du modèle.