Пользователь расширяет Gemma4-31B до 44B путём дублирования слоёв

Пользователь Reddit расширил модель Google Gemma4-31B примерно до 47 миллиардов параметров, увеличив количество слоёв с 60 до 88. Процесс включал расширение с инициализацией идентичностью по подходу LLaMA Pro, за которым последовало тонкое настраивание на корейских юридических и STEM-данных.

Расширил Gemma4-31B с 60 до 80 слоёв, используя identity-init с исправлением layer_scalar.
Выполнял второе расширение путём дублирования блоков с 80 до 88 слоёв на уже настроенной модели.
Провёл тонкое настраивание полученной модели с ~47B параметров на корейских юридических и STEM-датасетах.
Подтвердил, что дублированные слои с полным вниманием активно участвовали в обучении, а не оставались неактивными.

Автор делится деталями архитектуры и карточкой модели на Hugging Face, отмечая ранний потенциал для юридических и STEM-задач, одновременно обращаясь к сообществу за помощью в улучшении возможностей программирования и вызова инструментов.