arxiv arXiv cs.LG · hace 1 h · fuente: hace 12 d · research

SoftMoE: Enrutamiento suave y diferenciable para Mezcla de Expertos en LLMs

Traducido del English → Español

SoftMoE reemplaza el enrutamiento discreto top-k con una relajación LapSum suave y diferenciable top-k, permitiendo la optimización basada en gradientes de la selección de expertos. Aprende a asignar la activación del experto de forma no uniforme entre capas, con las capas posteriores activando más expertos, mientras utiliza significativamente menos expertos que el MoE disperso tradicional.

Importancia 2/3 Nuevo entorno de evaluación con diferenciadores arXiv cs.LG Google DeepMind Meta AI OpenAI Evaluation & benchmarks Reasoning models Training methods

Leer original