Los autores proponen la Distilación On-Policy de Multi-Maestro (MOPD), un paradigma de post-entrenamiento diseñado para integrar las capacidades de múltiples maestros de aprendizaje por refuerzo específicos del dominio en un único modelo estudiante. Este enfoque elimina el sesgo de exposición y proporciona una señal de optimización densa al destilar a los maestros en el estudiante durante sus propias ejecuciones.

  • MOPD supera a las líneas base Mix-RL, Cascade RL, Off-Policy Finetune y Param-Merge en Qwen3-30B-A3B, heredando casi todas las capacidades de cada maestro.
  • El método permite el desarrollo paralelo e independiente de maestros por dominio, eliminando el acoplamiento entre dominios típico del post-entrenamiento multi-dominio.
  • MOPD ha sido implementado en el post-entrenamiento de MiMo-V2-Flash, un modelo de vanguardia a escala industrial.

Este trabajo demuestra valor práctico para la integración de capacidades en LLMs de escala fronteriza al permitir una combinación eficiente de habilidades especializadas sin pérdida de rendimiento.