Antes de pensar, aprende a decidir: Enrutamiento proactivo para el razonamiento visual eficiente

Los autores proponen PRP, un Paradigma de Enrutamiento Proactivo que acelera la inferencia en grandes modelos multimodales mediante la toma de decisiones tempranas a través de la evaluación conjunta de la competencia del modelo borrador y del modelo objetivo. Este enfoque aborda el cuello de botella de establecer señales confiables de dificultad de consulta en entornos multimodales sin depender de ajustes finos supervisados sensibles a los datos ni de probabilidades de tokens posteriores al proceso.

PRP emplea Aprendizaje de Calificación del Borrador (DRL) para dotar al modelo borrador de un estimador interno de confianza.
El Aprendizaje de Calificación Conjunta (JRL) predice qué tan bien puede manejar el modelo objetivo una consulta dada para priorizar las muestras en las que destaca.
El método permite un enrutamiento proactivo fino y a nivel de instancia que acelera sustancialmente la inferencia sin comprometer el rendimiento general.
Experimentos extensos en múltiples benchmarks de razonamiento multimodal validan la efectividad y eficiencia del paradigma propuesto.

Esta estrategia permite una inferencia cooperativa entre modelos borrador pequeños y modelos objetivo grandes, optimizando la eficiencia y precisión mediante el enrutamiento adaptativo de consultas basándose en su dificultad en lugar de procesarlas después de una salida completa.