Reconstruction de Gemma 4 31b... mieux... en tant que 26b...
Un développeur expose un plan pour reconstruire le modèle Gemma 4 31B en réduisant son nombre de paramètres à environ 26B tout en visant une performance améliorée. Le projet implique des changements d'architecture, des techniques d'entraînement spécifiques et la curation de jeux de données pour créer un modèle plus petit et plus efficace.