Comparaison de débogage à petite échelle d'OLMo-core avec greffon Engram

Une comparaison d'entraînement sur 200 étapes entre un modèle de base OLMo3 600M et une version avec un greffon Engram de style DeepSeek montre une perte d'entraînement et d'évaluation plus faible, une stabilisation plus rapide de la norme du gradient et un comportement d'apprentissage précoce amélioré. Le greffon Engram, injecté dans les couches 1 et 5, augmente les paramètres entraînables à ~1,7 Mrd mais ne maintient qu'une augmentation de 40k de paramètres actifs par token, indiquant une utilisation efficace de la mémoire.