Redditのユーザーが、GoogleのGemma4-31Bモデルの層数を60から88に増やすことで、約470億パラメータに拡大しました。このプロセスには、LLaMA Proのアプローチに従ったアイデンティティ初期化による拡張が含まれ、その後、韓国の法曹およびSTEMデータに対するファインチューニングが行われました。

  • 特定のlayer_scalar修正を用いたアイデンティティ初期化により、Gemma4-31Bを60層から80層に拡張しました。
  • すでにファインチューニング済みのモデルに対して、80層から88層への2回目のブロック複製拡張を行いました。
  • 結果として得られた約47Bパラメータのモデルを、韓国の法曹およびSTEMデータセットでファインチューニングしました。
  • 複製されたフルアテンション層が非活性のままではなく、トレーニングに積極的に寄与していることを確認しました。

著者はHugging Face上でアーキテクチャの詳細とモデルカードを共有し、法曹およびSTEMのユースケースにおける初期の有望性を指摘しつつ、コーディングおよびツール呼び出し機能の改善のためにコミュニティの支援を求めています。