Un usuario de Reddit ha expandido el modelo Gemma4-31B de Google a aproximadamente 47 mil millones de parámetros al aumentar la cantidad de capas de 60 a 88. El proceso implicó una expansión con inicialización de identidad siguiendo el enfoque LLaMA Pro, seguido de un ajuste fino en datos jurídicos y STEM coreanos.

  • Amplió Gemma4-31B de 60 a 80 capas utilizando identity-init con una corrección específica de layer_scalar.
  • Realizó una segunda expansión por duplicación de bloques de 80 a 88 capas sobre el modelo ya ajustado fino.
  • Ajustó fino el modelo resultante de ~47B parámetros en conjuntos de datos jurídicos y STEM coreanos.
  • Verificó que las capas de atención completa duplicadas contribuyeron activamente al entrenamiento en lugar de permanecer inactivas.

El autor comparte los detalles de la arquitectura y la tarjeta del modelo en Hugging Face, señalando un prometedor inicio para casos de uso jurídicos y STEM mientras busca ayuda de la comunidad para mejorar las capacidades de codificación y llamada de herramientas.