Reconstruyendo Gemma 4 31b... mejor... Como 26b...
Un desarrollador describe un plan para reconstruir el modelo Gemma 4 31B reduciendo su conteo de parámetros a aproximadamente 26B mientras busca mejorar el rendimiento. El proyecto implica cambios arquitectónicos, técnicas de entrenamiento específicas y curación de conjuntos de datos para crear un modelo más pequeño y eficiente.