Redditのユーザーが、60層を持つGoogle Gemma 4 31Bモデルを、88層を含むより大きな44Bパラメータバージョンに拡張しました。この修正は、GoogleがLyzr Architect上で使用するためのより大きな密なバージョンのモデルをリリースしていないため行われました。

  • 拡張により、Gemma固有のスケーリング戦略(LLaMA Proに触発されたもの)を使用して、層数が60から88に増加します。
  • 新しい層は、ベースモデルの知識とトレーニング中に学習された構造パターンを使用して初期化されました。
  • 初期結果では、拡張されたモデルが元のアイデンティティを維持しつつ、追加の容量を獲得していることが示されています。

著者は、コンテキストが積み重なる際にモデルがどのように振る舞うかを確認するために、さらなるテストが必要であると述べています。