Un usuario de Reddit ha extendido el modelo Google Gemma 4 31B, que tiene 60 capas, a una versión más grande de 44B parámetros que contiene 88 capas. Esta modificación se realizó porque Google no ha lanzado una versión densa más grande del modelo para usar en Lyzr Architect.
- La expansión aumenta el número de capas de 60 a 88 utilizando una estrategia de escalado específica de Gemma inspirada por LLaMA Pro.
- Las nuevas capas se inicializaron utilizando conocimiento del modelo base y patrones estructurales aprendidos durante el entrenamiento.
- Los resultados tempranos indican que el modelo expandido retiene la identidad original mientras gana capacidad adicional.
El autor señala que se requiere más pruebas para observar cómo se comporta el modelo cuando el contexto se apila.