Reconstruyendo Gemma 4 31b... mejor... Como 26b...

Un desarrollador describe un plan para reconstruir el modelo Gemma 4 31B reduciendo su conteo de parámetros a aproximadamente 26B mientras busca mejorar el rendimiento. El proyecto implica cambios arquitectónicos, técnicas de entrenamiento específicas y curación de conjuntos de datos para crear un modelo más pequeño y eficiente.

Eliminar la Capa 3, identificada como la más débil de las cinco capas de atención de ventana deslizante (SWA).
Reescalar los contextos de atención SWA a 1024/2048/4096/8.1k tokens seguido de una capa global.
Implementar "Attention based Residual Networks" en las capas globales para mejorar el flujo de información y la coherencia global.
Usar los logits TopK (12 o 20) del modelo original como objetivos para el reentrenamiento mientras se congela la parte superior e inferior de la red.
Reducir los parámetros totales de ~30.81B a ~26.02B mediante estas modificaciones estructurales.

El autor pretende lograr mejores capacidades de contexto largo y rendimiento general en una huella más pequeña, con planes de potencialmente eliminar la censura de la fase de "pensamiento" del modelo.