Un desarrollador describe un plan para reconstruir el modelo Gemma 4 31B reduciendo su conteo de parámetros a aproximadamente 26B mientras busca mejorar el rendimiento. El proyecto implica cambios arquitectónicos, técnicas de entrenamiento específicas y curación de conjuntos de datos para crear un modelo más pequeño y eficiente.
- Eliminar la Capa 3, identificada como la más débil de las cinco capas de atención de ventana deslizante (SWA).
- Reescalar los contextos de atención SWA a 1024/2048/4096/8.1k tokens seguido de una capa global.
- Implementar "Attention based Residual Networks" en las capas globales para mejorar el flujo de información y la coherencia global.
- Usar los logits TopK (12 o 20) del modelo original como objetivos para el reentrenamiento mientras se congela la parte superior e inferior de la red.
- Reducir los parámetros totales de ~30.81B a ~26.02B mediante estas modificaciones estructurales.
El autor pretende lograr mejores capacidades de contexto largo y rendimiento general en una huella más pequeña, con planes de potencialmente eliminar la censura de la fase de "pensamiento" del modelo.