CHERRY: Pakah Ahli Berurutan Terkompresi dengan Hasil Representasi Rekuren

Artikel ini menyajikan CHERRY-1.8B, sebuah model dasar Korea yang mengintegrasikan tiga teknik untuk melatih model bahasa yang efisien secara komputasi: supervisi selektif, kompresi kedalaman dengan pemulihan rekuren, dan fusi ahli terkompresi.

Pelatihan Token Kebenaran Dasar Selektif (SGT) memusatkan supervisi pada ~15% token output, menghasilkan efisiensi per-token terawasi 4,5x sambil meningkatkan token tak terawasi melalui kopling gradien. Kompresi kedalaman mengurangi transformer berlapis 48 dengan 1 miliar parameter menjadi 6 lapis (227 juta parameter), yang dipulihkan melalui unrolling rekuren yang dipelajari untuk mencapai loss 2,934, yang sebanding dengan model padat 566 juta. Merakit model terkompresi sebagai Mixture of Efficient Experts (MoEE) dengan prediksi multi-token lebih lanjut meningkatkan kinerja, mencapai loss 2,789.

Para penulis memvalidasi teknik-teknik ini pada CHERRY-1.8B, mencatat bahwa setiap parameter yang dapat dilatih berasal dari pelatihan mereka sendiri dan secara eksplisit mendefinisikan cakupan bukti sebagai terbatas pada satu keluarga model dan data Korea.