Un usuario amplía Gemma4-31B a 44B mediante duplicación de capas

Un usuario de Reddit ha expandido el modelo Gemma4-31B de Google a aproximadamente 47 mil millones de parámetros al aumentar la cantidad de capas de 60 a 88. El proceso implicó una expansión con inicialización de identidad siguiendo el enfoque LLaMA Pro, seguido de un ajuste fino en datos jurídicos y STEM coreanos.

Amplió Gemma4-31B de 60 a 80 capas utilizando identity-init con una corrección específica de layer_scalar.
Realizó una segunda expansión por duplicación de bloques de 80 a 88 capas sobre el modelo ya ajustado fino.
Ajustó fino el modelo resultante de ~47B parámetros en conjuntos de datos jurídicos y STEM coreanos.
Verificó que las capas de atención completa duplicadas contribuyeron activamente al entrenamiento en lugar de permanecer inactivas.

El autor comparte los detalles de la arquitectura y la tarjeta del modelo en Hugging Face, señalando un prometedor inicio para casos de uso jurídicos y STEM mientras busca ayuda de la comunidad para mejorar las capacidades de codificación y llamada de herramientas.