Прежде чем думать, научитесь принимать решения: проактивная маршрутизация для эффективного визуального рассуждения

Авторы предлагают PRP (Proactive Routing Paradigm — парадигму проактивной маршрутизации), которая ускоряет вывод в больших мультимодальных моделях за счёт раннего принятия решений посредством совместной оценки компетентности черновой и целевой моделей. Этот подход решает проблему создания надёжных сигналов сложности запроса в мультимодальных условиях без опоры на чувствительные к данным методы супервизированного тонкого обучения или постфактум вероятностей токенов.

PRP использует обучение рейтингу черновой модели (Draft Rating Learning, DRL) для оснащения черновой модели внутренним оценщиком уверенности.
Совместное обучение рейтингу (Joint Rating Learning, JRL) предсказывает, насколько хорошо целевая модель справится с данным запросом, чтобы приоритизировать образцы, в которых она преуспевает.
Метод обеспечивает тонкозернистую проактивную маршрутизацию на уровне отдельных экземпляров, что существенно ускоряет вывод без ущерба для общей производительности.
Масштабные эксперименты на нескольких бенчмарках мультимодального рассуждения подтверждают эффективность и результативность предложенной парадигмы.

Эта стратегия позволяет осуществлять кооперативный вывод между малой черновой и большой целевой моделями, оптимизируя эффективность и точность за счёт адаптивной маршрутизации запросов на основе их сложности, а не обработки после получения полного вывода.