media Hugging Face Forums · há 10 d · open_models

Comparação de depuração em pequena escala do OLMo-core com enxerto Engram

Traduzido do English → Português (BR)

Uma comparação de treinamento de 200 passos entre um modelo base OLMo3 600M e uma versão com enxerto Engram estilo DeepSeek mostra perda de treinamento e avaliação menores, estabilização mais rápida da norma do gradiente e comportamento de aprendizado inicial melhorado. O enxerto Engram, injetado nas camadas 1 e 5, aumenta os parâmetros treináveis para ~1,7B, mas mantém apenas um aumento de 40k nos parâmetros ativos por token, indicando uso eficiente de memória.

Importância 1/3 Confiança 1/3 Hugging Face Forums Open weights Training methods

Ler original