Авторы предлагают PRP (Proactive Routing Paradigm — парадигму проактивной маршрутизации), которая ускоряет вывод в больших мультимодальных моделях за счёт раннего принятия решений посредством совместной оценки компетентности черновой и целевой моделей. Этот подход решает проблему создания надёжных сигналов сложности запроса в мультимодальных условиях без опоры на чувствительные к данным методы супервизированного тонкого обучения или постфактум вероятностей токенов.

  • PRP использует обучение рейтингу черновой модели (Draft Rating Learning, DRL) для оснащения черновой модели внутренним оценщиком уверенности.
  • Совместное обучение рейтингу (Joint Rating Learning, JRL) предсказывает, насколько хорошо целевая модель справится с данным запросом, чтобы приоритизировать образцы, в которых она преуспевает.
  • Метод обеспечивает тонкозернистую проактивную маршрутизацию на уровне отдельных экземпляров, что существенно ускоряет вывод без ущерба для общей производительности.
  • Масштабные эксперименты на нескольких бенчмарках мультимодального рассуждения подтверждают эффективность и результативность предложенной парадигмы.

Эта стратегия позволяет осуществлять кооперативный вывод между малой черновой и большой целевой моделями, оптимизируя эффективность и точность за счёт адаптивной маршрутизации запросов на основе их сложности, а не обработки после получения полного вывода.