media r/LocalLLaMA · 2 小时前 · open_models

重建 Gemma 4 31b... 更好... 作为 26b...

译自 English → 中文

一位开发者概述了通过将其参数量减少到约 26B 来重建 Gemma 4 31B 模型的计划，同时旨在提高性能。该项目涉及架构更改、特定的训练技术和数据集策展，以创建更小、更高效的模型。

移除第 3 层，被确定为五个滑动窗口注意力 (SWA) 层中最弱的一个。
将 SWA 注意力跨度重新缩放为 1024/2048/4096/8.1k 个 token，后接一个全局层。
在全局层中实施“基于注意力的残差网络”以改善信息流和全局连贯性。
使用原始模型的 TopK (12 或 20) logits 作为重新训练的目标，同时冻结网络的顶部和底部。
通过这些结构修改将总参数量从 ~30.81B 减少到 ~26.02B。

作者旨在以更小的体积实现更好的长上下文能力和整体性能，并计划可能取消模型“思考”阶段的审查。

重要性 1/3 r/LocalLLaMA Open weights Training methods