본 기사는 세 가지 기술을 통합한 한국어 파운데이션 모델인 CHERRY-1.8B를 소개합니다. 이 기술들은 계산 효율적인 언어 모델을 훈련하기 위한 선택적 감독, 재귀적 복원을 통한 깊이 압축, 그리고 압축된 전문가의 융합입니다.

선택적 정답 토큰 훈련(SGT)은 출력 토큰의 약 15%에 감독을 집중시켜 토큰당 효율을 4.5배 높이는 동시에 그래디언트 결합을 통해 비감독 토큰을 개선합니다. 깊이 압축은 48층, 10억 파라미터 트랜스포머를 6층(2억 2700만 파라미터)으로 줄이고, 학습된 재귀적 풀링을 통해 손실 2.934로 복원하며, 이는 5억 6600만 밀집 모델과 비교 가능한 수준입니다. 압축된 모델을 멀티 토큰 예측이 포함된 효율적인 전문가 혼합(MoEE)으로 조립하면 성능이 더욱 향상되어 손실 2.789를 달성합니다.

저자들은 이러한 기법들을 CHERRY-1.8B에서 검증했으며, 모든 학습 가능한 파라미터는 자체 훈련 실행에서 유래하며 증거의 범위를 하나의 모델 패밀리와 한국어 데이터로 제한한다고 명시적으로 정의했습니다.