CHERRY: Especialistas Hierárquicos Comprimidos com Rendimento Representacional Recorrente

O artigo apresenta o CHERRY-1.8B, um modelo base coreano que integra três técnicas para treinar modelos de linguagem eficientes em computação: supervisão seletiva, compressão de profundidade com recuperação recorrente e fusão de especialistas comprimidos.

O Treinamento de Tokens de Verdade Fundamental Seletiva (SGT) concentra a supervisão em ~15% dos tokens de saída, gerando uma eficiência de 4.5x por token supervisionado enquanto melhora os tokens não supervisionados através do acoplamento de gradientes. A compressão de profundidade reduz um transformador de 48 camadas e 1B parâmetros para 6 camadas (227M parâmetros), que é restaurado via desenrolamento recorrente aprendido para atingir uma perda de 2.934, comparável a um modelo denso de 566M. Montar modelos comprimidos como uma Mistura de Especialistas Eficientes (MoEE) com previsão multi-token melhora ainda mais o desempenho, alcançando uma perda de 2.789.

Os autores validam essas técnicas no CHERRY-1.8B, observando que cada parâmetro treinável deriva de suas próprias execuções de treinamento e definindo explicitamente o escopo da evidência como limitado a uma família de modelos e dados coreanos.