OLMo-core और Engram ग्राफ्ट का छोटे पैमाने पर डीबग तुलना

एक बेस OLMo3 600M मॉडल और एक DeepSeek-शैली Engram ग्राफ्ट वाले संस्करण के बीच 200-स्टेप प्रशिक्षण तुलना में कम प्रशिक्षण और मूल्यांकन हानि, तेज़ grad-norm स्थिरीकरण, और बेहतर शुरुआती शिक्षण व्यवहार दिखाई देता है। Engram ग्राफ्ट, जो परतों 1 और 5 में इंजेक्ट किया गया है, ट्रेनेबल पैरामीटर को ~1.7B तक बढ़ाता है लेकिन प्रति टोकन सक्रिय पैरामीटर में केवल 40k की वृद्धि बनाए रखता है, जो कि दक्षतापूर्ण मेमोरी उपयोग को संकेत करता है।