Perbandingan pelatihan 200 langkah antara model dasar OLMo3 600M dan versi dengan graft Engram gaya DeepSeek menunjukkan loss pelatihan dan evaluasi yang lebih rendah, stabilisasi grad-norm yang lebih cepat, dan perilaku pembelajaran awal yang lebih baik. Graft Engram, disuntikkan ke lapisan 1 dan 5, meningkatkan parameter yang dapat dilatih menjadi ~1,7B tetapi hanya mempertahankan peningkatan 40k pada parameter aktif per token, menunjukkan penggunaan memori yang efisien.