一位开发者概述了通过将其参数量减少到约 26B 来重建 Gemma 4 31B 模型的计划,同时旨在提高性能。该项目涉及架构更改、特定的训练技术和数据集策展,以创建更小、更高效的模型。
- 移除第 3 层,被确定为五个滑动窗口注意力 (SWA) 层中最弱的一个。
- 将 SWA 注意力跨度重新缩放为 1024/2048/4096/8.1k 个 token,后接一个全局层。
- 在全局层中实施“基于注意力的残差网络”以改善信息流和全局连贯性。
- 使用原始模型的 TopK (12 或 20) logits 作为重新训练的目标,同时冻结网络的顶部和底部。
- 通过这些结构修改将总参数量从 ~30.81B 减少到 ~26.02B。
作者旨在以更小的体积实现更好的长上下文能力和整体性能,并计划可能取消模型“思考”阶段的审查。