OLMo-coreとEngraft graftの小規模デバッグ比較

ベースのOLMo3 600MモデルとDeepSeekスタイルのEngraft graftを適用したバージョンの間で200ステップのトレーニング比較を行い、トレーニングおよび評価損失が低下し、勾配ノルムの安定化が速くなり、初期学習行動が改善されていることが示されました。レイヤー1と5に注入されたEngraft graftは、学習可能パラメータを約17億に増加させますが、トークンあたりのアクティブパラメータの増加は40kのみにとどまり、効率的なメモリ使用を示しています。