Uma comparação de treinamento de 200 passos entre um modelo base OLMo3 600M e uma versão com enxerto Engram estilo DeepSeek mostra perda de treinamento e avaliação menores, estabilização mais rápida da norma do gradiente e comportamento de aprendizado inicial melhorado. O enxerto Engram, injetado nas camadas 1 e 5, aumenta os parâmetros treináveis para ~1,7B, mas mantém apenas um aumento de 40k nos parâmetros ativos por token, indicando uso eficiente de memória.
Comparação de depuração em pequena escala do OLMo-core com enxerto Engram
Traduzido do English → Português (BR)