在基础OLMo3 600M模型与带有DeepSeek风格Engram嫁接的版本之间进行了200步的训练对比,结果显示训练和评估损失更低,梯度范数稳定更快,早期学习行为得到改善。Engram嫁接注入到第1层和第5层,将可训练参数增加至约17亿,但每个token的活跃参数仅增加4万,表明内存使用高效。
OLMo-core与Engram嫁接的小规模调试对比
译自 English → 中文
在基础OLMo3 600M模型与带有DeepSeek风格Engram嫁接的版本之间进行了200步的训练对比,结果显示训练和评估损失更低,梯度范数稳定更快,早期学习行为得到改善。Engram嫁接注入到第1层和第5层,将可训练参数增加至约17亿,但每个token的活跃参数仅增加4万,表明内存使用高效。