media Hugging Face Forums · 10 hari lalu · open_models

Perbandingan debug skala kecil OLMo-core dengan graft Engram

Diterjemahkan dari English → Bahasa Indonesia

Perbandingan pelatihan 200 langkah antara model dasar OLMo3 600M dan versi dengan graft Engram gaya DeepSeek menunjukkan loss pelatihan dan evaluasi yang lebih rendah, stabilisasi grad-norm yang lebih cepat, dan perilaku pembelajaran awal yang lebih baik. Graft Engram, disuntikkan ke lapisan 1 dan 5, meningkatkan parameter yang dapat dilatih menjadi ~1,7B tetapi hanya mempertahankan peningkatan 40k pada parameter aktif per token, menunjukkan penggunaan memori yang efisien.

Kepentingan 1/3 Kepercayaan 1/3 Hugging Face Forums Open weights Training methods

Baca aslinya