مقارنة تصحيح أخطاء على نطاق صغير لـ OLMo-core مع دمج Engram

تُظهر مقارنة تدريب مكونة من 200 خطوة بين نموذج أساسي OLMo3 بحجم 600M ونسخة تحتوي على دمج Engram بأسلوب DeepSeek انخفاضًا في فقدان التدريب والتقييم، واستقرارًا أسرع لمعيار التدرج، وتحسنًا في سلوك التعلم المبكر. يؤدي دمج Engram، المُحقن في الطبقتين 1 و5، إلى زيادة المعلمات القابلة للتدريب إلى حوالي 1.7 مليار مع الحفاظ على زيادة قدرها 40 ألف فقط في المعلمات النشطة لكل رمز، مما يشير إلى استخدام فعال للذاكرة.