media r/LocalLLaMA · 1 小时前 · open_models

用户将 Gemma 4 31B 扩展为具有 88 层的 44B 模型

译自 English → 中文

一位 Reddit 用户将拥有 60 层的 Google Gemma 4 31B 模型扩展为包含 88 层的更大 44B 参数版本。进行此修改是因为 Google 尚未发布用于 Lyzr Architect 的更大密集版本模型。

该扩展使用受 LLaMA Pro 启发的 Gemma 特定缩放策略，将层数从 60 增加到 88。
新层是使用基础模型的知识以及训练期间学到的结构模式初始化的。
早期结果表明，扩展后的模型保留了原始身份，同时获得了额外的容量。

作者指出，需要进一步测试以观察当上下文堆积时模型的行为。

重要性 1/3 r/LocalLLaMA Open weights