MOPD: Distilación On-Policy de Multi-Maestro para la Integración de Capacidades en el Post-Entrenamiento de LLM

Los autores proponen la Distilación On-Policy de Multi-Maestro (MOPD), un paradigma de post-entrenamiento diseñado para integrar las capacidades de múltiples maestros de aprendizaje por refuerzo específicos del dominio en un único modelo estudiante. Este enfoque elimina el sesgo de exposición y proporciona una señal de optimización densa al destilar a los maestros en el estudiante durante sus propias ejecuciones.

MOPD supera a las líneas base Mix-RL, Cascade RL, Off-Policy Finetune y Param-Merge en Qwen3-30B-A3B, heredando casi todas las capacidades de cada maestro.
El método permite el desarrollo paralelo e independiente de maestros por dominio, eliminando el acoplamiento entre dominios típico del post-entrenamiento multi-dominio.
MOPD ha sido implementado en el post-entrenamiento de MiMo-V2-Flash, un modelo de vanguardia a escala industrial.

Este trabajo demuestra valor práctico para la integración de capacidades en LLMs de escala fronteriza al permitir una combinación eficiente de habilidades especializadas sin pérdida de rendimiento.