기본 OLMo3 600M 모델과 DeepSeek 스타일 Engraft graft가 적용된 버전 간 200단계 학습 비교에서 더 낮은 학습 및 평가 손실, 더 빠른 grad-norm 안정화, 개선된 초기 학습 동작이 나타났습니다. 레이어 1과 5에 주입된 Engraft graft는 학습 가능한 매개변수를 약 17억으로 증가시키지만 토큰당 활성 매개변수 증가는 40k로 유지되어 효율적인 메모리 사용을 시사합니다.
OLMo-core와 Engraft graft의 소규모 디버그 비교
번역 English → 한국어