CHERRY: Expertos Jerárquicos Comprimidos con Rendimiento Representacional Recurrente

El artículo presenta CHERRY-1.8B, un modelo base coreano que integra tres técnicas para entrenar modelos de lenguaje eficientes en cómputo: supervisión selectiva, compresión de profundidad con recuperación recurrente y fusión de expertos comprimidos.

El Entrenamiento de Tokens de Verdad Fundamental Selectiva (SGT) concentra la supervisión en ~15% de los tokens de salida, produciendo una eficiencia por token supervisado de 4.5x mientras mejora los tokens no supervisados a través del acoplamiento de gradientes. La compresión de profundidad reduce un transformador de 48 capas y 1B parámetros a 6 capas (227M parámetros), que se restaura mediante desenrollado recurrente aprendido para alcanzar una pérdida de 2.934, comparable a un modelo denso de 566M. Ensamblar modelos comprimidos como una Mezcla de Expertos Eficientes (MoEE) con predicción multi-token mejora aún más el rendimiento, logrando una pérdida de 2.789.

Los autores validan estas técnicas en CHERRY-1.8B, señalando que cada parámetro entrenable deriva de sus propias ejecuciones de entrenamiento y definiendo explícitamente el alcance de la evidencia como limitado a una familia de modelos y datos coreanos.