一位 Reddit 用户将拥有 60 层的 Google Gemma 4 31B 模型扩展为包含 88 层的更大 44B 参数版本。进行此修改是因为 Google 尚未发布用于 Lyzr Architect 的更大密集版本模型。

  • 该扩展使用受 LLaMA Pro 启发的 Gemma 特定缩放策略,将层数从 60 增加到 88。
  • 新层是使用基础模型的知识以及训练期间学到的结构模式初始化的。
  • 早期结果表明,扩展后的模型保留了原始身份,同时获得了额外的容量。

作者指出,需要进一步测试以观察当上下文堆积时模型的行为。