Los autores proponen PRP, un Paradigma de Enrutamiento Proactivo que acelera la inferencia en grandes modelos multimodales mediante la toma de decisiones tempranas a través de la evaluación conjunta de la competencia del modelo borrador y del modelo objetivo. Este enfoque aborda el cuello de botella de establecer señales confiables de dificultad de consulta en entornos multimodales sin depender de ajustes finos supervisados sensibles a los datos ni de probabilidades de tokens posteriores al proceso.

  • PRP emplea Aprendizaje de Calificación del Borrador (DRL) para dotar al modelo borrador de un estimador interno de confianza.
  • El Aprendizaje de Calificación Conjunta (JRL) predice qué tan bien puede manejar el modelo objetivo una consulta dada para priorizar las muestras en las que destaca.
  • El método permite un enrutamiento proactivo fino y a nivel de instancia que acelera sustancialmente la inferencia sin comprometer el rendimiento general.
  • Experimentos extensos en múltiples benchmarks de razonamiento multimodal validan la efectividad y eficiencia del paradigma propuesto.

Esta estrategia permite una inferencia cooperativa entre modelos borrador pequeños y modelos objetivo grandes, optimizando la eficiencia y precisión mediante el enrutamiento adaptativo de consultas basándose en su dificultad en lugar de procesarlas después de una salida completa.