一位 Reddit 用户通过将层数从 60 增加到 88,将 Google 的 Gemma4-31B 模型扩展到约 470 亿参数。该过程遵循 LLaMA Pro 方法,采用身份初始化扩展,随后在韩语法律和 STEM 数据上进行微调。

  • 使用 identity-init 和特定的 layer_scalar 修复,将 Gemma4-31B 从 60 层扩展到 80 层。
  • 对已微调的模型进行第二次块复制扩展,从 80 层扩展到 88 层。
  • 在韩语法律和 STEM 数据集上对产生的约 47B 参数模型进行微调。
  • 验证了复制的全注意力层积极参与训练,而非保持非活动状态。

作者在 Hugging Face 上分享了架构细节和模型卡,指出其在法律和 STEM 用例方面的早期潜力,同时寻求社区帮助以改进编码和工具调用能力。