CHERRY : Experts hiérarchiques compressés avec rendement représentationnel récurrent

L'article présente CHERRY-1.8B, un modèle de base coréen qui intègre trois techniques pour former des modèles linguistiques économes en calcul : la supervision sélective, la compression de profondeur avec récupération récurrente et la fusion d'experts compressés.

La formation par jetons de vérité terrain sélectifs (SGT) concentre la supervision sur environ 15 % des jetons de sortie, offrant une efficacité par jeton supervisé x4,5 tout en améliorant les jetons non supervisés via le couplage des gradients. La compression de profondeur réduit un transformateur de 48 couches et 1 milliard de paramètres à 6 couches (227 millions de paramètres), qui est restauré via un déroulage récurrent appris pour atteindre une perte de 2,934, comparable à celle d'un modèle dense de 566 millions. L'assemblage des modèles compressés en un Mélange d'Experts Efficaces (MoEE) avec prédiction multi-jetons améliore davantage les performances, atteignant une perte de 2,789.

Les auteurs valident ces techniques sur CHERRY-1.8B, notant que chaque paramètre entraînable provient de leurs propres exécutions d'entraînement et définissant explicitement la portée des preuves comme limitée à une seule famille de modèles et aux données coréennes.