ある開発者が、パラメータ数を約26Bに削減しつつパフォーマンスの向上を目指し、Gemma 4 31Bモデルを再構築する計画を明らかにしました。このプロジェクトには、アーキテクチャの変更、特定のトレーニング手法、データセットのキュレーションが含まれ、より小さく効率的なモデルの作成を目指します。
- 5つのスライディングウィンドウアテンション(SWA)層の中で最も弱いとされるLayer 3を削除。
- SWAアテンションのspanを1024/2048/4096/8.1kトークンに再スケールし、その後にグローバル層を追加。
- グローバル層に「Attention based Residual Networks」を実装し、情報フローとグローバルな一貫性を向上。
- ネットワークの上部と下部を凍結しつつ、再トレーニングのターゲットとして元のモデルのTopK(12または20)ロジットを使用。
- これらの構造的変更により、総パラメータ数を約30.81Bから約26.02Bに削減。
著者は、より小さいフットプリントで長いコンテキストの機能と全体的なパフォーマンスの向上を目指しており、モデルの「思考」トレーニングフェーズの検閲解除も検討しています。