Авторы предлагают многоучительскую дистилляцию на основе он-политики (MOPD), парадигму постобучения, предназначенную для интеграции возможностей нескольких специализированных учителей усиленного обучения с подкреплением в одну модель-студент. Этот подход устраняет смещение воздействия и обеспечивает плотный сигнал оптимизации за счёт дистилляции учителей в студента во время его собственных рулоутов.

  • MOPD превосходит базовые методы Mix-RL, Cascade RL, Off-Policy Finetune и Param-Merge на Qwen3-30B-A3B, наследуя практически все возможности каждого учителя.
  • Метод позволяет параллельное независимое развитие учителей по доменам, устраняя междоменную связность, типичную для постобучения с несколькими доменами.
  • MOPD была развернута в процессе постобучения MiMo-V2-Flash, промышленной модели передового уровня.

Эта работа демонстрирует практическую ценность интеграции возможностей в больших языковых моделях передового масштаба, позволяя эффективно комбинировать специализированные навыки без потери производительности.