Пользователь Reddit расширил модель Google Gemma4-31B примерно до 47 миллиардов параметров, увеличив количество слоёв с 60 до 88. Процесс включал расширение с инициализацией идентичностью по подходу LLaMA Pro, за которым последовало тонкое настраивание на корейских юридических и STEM-данных.
- Расширил Gemma4-31B с 60 до 80 слоёв, используя identity-init с исправлением layer_scalar.
- Выполнял второе расширение путём дублирования блоков с 80 до 88 слоёв на уже настроенной модели.
- Провёл тонкое настраивание полученной модели с ~47B параметров на корейских юридических и STEM-датасетах.
- Подтвердил, что дублированные слои с полным вниманием активно участвовали в обучении, а не оставались неактивными.
Автор делится деталями архитектуры и карточкой модели на Hugging Face, отмечая ранний потенциал для юридических и STEM-задач, одновременно обращаясь к сообществу за помощью в улучшении возможностей программирования и вызова инструментов.