Пользователь Reddit расширил модель Google Gemma 4 31B, которая имеет 60 слоев, до более крупной версии на 44B параметров, содержащей 88 слоев. Это изменение было выполнено, потому что Google не выпустила более крупную плотную версию модели для использования в Lyzr Architect.
- Расширение увеличивает количество слоев с 60 до 88 с использованием стратегии масштабирования Gemma, вдохновленной LLaMA Pro.
- Новые слои были инициализированы с использованием знаний из базовой модели и структурных паттернов, изученных во время обучения.
- Ранние результаты показывают, что расширенная модель сохраняет исходную идентичность, приобретая дополнительную емкость.
Автор отмечает, что требуется дополнительное тестирование, чтобы увидеть, как модель ведет себя при накоплении контекста.