Las arquitecturas de Mezcla de Expertos (MoE) dispersas a menudo luchan con idiomas de recursos limitados debido a la divergencia del enrutamiento intercultural que limita el intercambio de expertos. Para abordar esto, los investigadores proponen SARA, un marco que transfiere capacidades especializadas de idiomas ancla de recursos abundantes a aquellos de recursos limitados. SARA alinea las distribuciones de enrutamiento interno de las capas MoE utilizando una restricción de divergencia simétrica de Jensen-Shannon en lugar de operar sobre los logits de salida. Este enfoque fomenta la consistencia mecánica en la selección de expertos entre diferentes idiomas. Los autores evaluaron el método en dos modelos de lenguaje grandes a través de cinco idiomas de recursos limitados y tres conjuntos de pruebas. Los resultados muestran que SARA supera al ajuste por instrucciones estándar, logrando ganancias de +0.8% en Qwen3-30B-A3B y +1.2% en Phi-3.5-MoE-instruct para Global-MMLU. Estos hallazgos demuestran que SARA aborda eficazmente los cuellos de botella de rendimiento en contextos de recursos limitados.
SARA: Desbloqueando el conocimiento multilingüe en Mezcla de Expertos mediante Alineamiento de Enrutamiento Anclado Semánticamente
Traducido del English → Español