media Hugging Face Forums · 10 天前 · open_models

OLMo-core与Engram嫁接的小规模调试对比

译自 English → 中文

在基础OLMo3 600M模型与带有DeepSeek风格Engram嫁接的版本之间进行了200步的训练对比，结果显示训练和评估损失更低，梯度范数稳定更快，早期学习行为得到改善。Engram嫁接注入到第1层和第5层，将可训练参数增加至约17亿，但每个token的活跃参数仅增加4万，表明内存使用高效。

重要性 1/3 可信度 1/3 Hugging Face Forums Open weights Training methods