本記事では、計算効率の高い言語モデルのトレーニングに3つの技術を統合した韓国語基盤モデルであるCHERRY-1.8Bを紹介しています。これらは選択的教師あり学習、再帰的回復を伴う深さ圧縮、および圧縮されたエキスパートの融合です。
選択的正解トークントレーニング(SGT)は、出力トークンの約15%に教師あり信号を集約し、4.5倍のトークンあたりの効率を実現すると同時に、勾配結合を通じて教師なしトークンを改善します。深さ圧縮により、48層・10億パラメータのトランスフォーマーを6層(2億2700万パラメータ)に圧縮し、学習された再帰的展開によって損失2.934まで回復させます。これは5億6600万パラメータの密なモデルと同等です。圧縮モデルをマルチトークン予測付きの効率的なエキスパート混合(MoEE)として組み合わさることで、さらに性能が向上し、損失2.789を達成します。
著者らはこれらの技術をCHERRY-1.8Bで検証しており、すべての学習可能パラメータは自らのトレーニングランから派生しており、証拠の範囲は1つのモデルファミリーと韓国語データに限定されると明示的に定義しています。