Este artículo presenta AIR, un método que potencia a los modelos de lenguaje multimodales grandes con capacidades de razonamiento entrelazado adaptativo mediante entrenamiento extendido de aprendizaje por refuerzo en tareas de cómputo numérico complejo aumentadas con código. Los autores abordan la limitación de la literatura existente, que se centra principalmente en el uso de herramientas dentro de tareas de percepción visual y depende de heurísticas predefinidas incapaces de manejar cálculos numéricos. Para resolver esto, proponen una solución integral de tres componentes que incluye un pipeline de construcción de datos de inicio en frío en dos etapas, estrategias de filtrado de datos para la curación del conjunto de datos de aprendizaje por refuerzo y una estrategia de invocación de herramientas adaptativa que aprovecha una función de recompensa con restricciones de grupo. Experimentos extensos demuestran que después del entrenamiento de aprendizaje por refuerzo con esta función de recompensa, el rendimiento mejora en un promedio de 6.1 puntos porcentuales en los benchmarks de evaluación. Específicamente, la precisión para muestras de razonamiento entrelazado aumenta en 9.9 puntos porcentuales, mientras que la tasa de éxito general del uso de herramientas supera el 95 por ciento. Los investigadores proporcionan sus datos y código para acceso público en un repositorio de GitHub especificado.
AIR: Razonamiento entrelazado adaptativo con código en MLLMs
Traducido del English → Español